Η ΙΕ κοιτίδα #2: η επίθεση κατά της γλωσσολογίας

Το 2012, το συμπέρασμα μιας ομάδας βιολόγων (Bouckaert, Gray, Atkinson κλπ) απέκτησε αήθη δημοσιότητα όταν δημοσιεύτηκε στα περιοδικά Science και New York Times. Το συμπέρασμα αυτών των βιολόγων ήταν πως είχαν βρει την απάντηση στο θέμα της ΙΕ κοιτίδας. Τροποποίησαν ένα υπολογιστικό πρόγραμμα που είχαν σχεδιάσει για την μελέτη της εξάπλωσης και ταυτόχρονης μετάλλαξης των ιών, έτσι ώστε να μπορεί να «χωνέψει» γλωσσολογικά δεδομένα και, εν συνεχεία, το «τάισαν» με ψηφιοποιημένα δεδομένα από 103 ΙΕ γλώσσες (λίστες συγγενών ΙΕ όρων). Κάθε φορά που το πρόγραμμα έτρεχε κατέληγε σε ένα φυλογενετικό δενδρόγραμμα των ΙΕ γλωσσών μαζί με τις ημερομηνίες για την κάθε απόσχιση/διάσπαση. Αφήνοντας τον υπολογιστή να τρέξει το πρόγραμμα εκατομμύρια φορές, ακολουθήθηκε ένας αλγόριθμος που σκοπό είχε να επιλέξει το πιθανότερο δενδρόγραμμα και τις πιθανότερες ημερομηνίες απόσχισης/διάσπασης μαζί με την τυπική απόκλιση (t ± δt).

Το συμπέρασμα ήταν πως η πρώτη διάσπαση της ΙΕ οικογένειας, αυτή από την οποία ο Ανατολιακός κλάδος αποσχίστηκε από τον κορμό, είχε γίνει 8700 ± 700 χρόνια πριν, δηλαδή γύρω στο 6700 ± 700 π.Χ. . Το δεδομένο αυτό, σύμφωνα με τους μελετητές, απέδειξε ότι η Ανατολιακή υπόθεση του Colin Renfrew είναι η ορθή θεωρία για την ΙΕ κοιτίδα και εξάπλωση των ΙΕ γλωσσών.

Η γλωσσολόγος Asya Pereltsvaig και ο γεωγράφος Martin Lewis από το πανεπιστήμιο Stanford έχουν ασχοληθεί εκτενώς με την εξέταση του προγράμματος και των δεδομένων με τα οποία αυτό «ταΐστηκε» και σε μια σειρά άρθρων (που εν τέλει έγιναν βιβλίο που σε λίγο θα κυκλοφορήσει σε έκδοση paperback) ανέδειξαν τα κραυγαλέα γλωσσολογικά λάθη. Εύστοχα βάπτισαν το άρθρο των βιολόγων «η επίθεση κατά της Ιστορικής Γλωσσολογίας» (the Assault on Historical Linguistics).

Εδώ θα παρουσιάσω μερικά προβλήματα του «καλύτερα ταιριαστού δενδρογράμματος» (“best fitting tree“) που έχει ήδη επισημάνει η Asya Pereltsvaig. Επειδή η φράση “best fitting tree” είναι τυπική ορολογία στην υπολογιστική κλαδιστική (computational biologycladistics), η Pereltsvaig εύστοχα απάντησε “is this the best they can do?” (αυτό είναι το καλύτερο που μπορούν να κάνουν;).

Το πρόβλημα είναι πως οι βιολόγοι τάισαν το πρόγραμμά τους μόνο με λεξιλογικά δεδομένα (δηλαδή αν υπάρχει ή δεν υπάρχει μια αναδομημένη ΠΙΕ ρίζα σε μία θυγατρική γλώσσα). Η γλωσσολογία ως σύστημα παραδοσιακά αποτελείται από 4 βασικά υποσυστήματα: φωνολογία, μορφολογία, γραμματική και σημασιολογία. Με τον καιρό προστέθηκαν και επιπλέον υποσυστήματα.

Το φώνημα είναι η στοιχειώδης μονάδα ήχου (ο φθόγγος).

Το μόρφημα είναι η ελάχιστη σημαίνουσα ακολουθία φθόγγων (λ.χ. στερητικό α-, ανισοσυλλαβικός πληθυντικός -άδες).

Το λέξημα είναι η ελάχιστη μονάδα έκφρασης.

Η γραμματική εξετάζει τόσο την σύνταξη των λέξεων όσο και τις εσωτερικές μορφολογικές αλλαγές που αυτές υφίστανται προκειμένου να αποδοθούν γραμματικές κατηγορίες όπως ο ρηματικός χρόνος, ο αριθμός (ενικός, πληθυντικός), το πρόσωπο (1° ενικό, 2°  πληθυντικό κλπ), η πτώση, η έγκλιση κλπ.

Τέλος, η σημασιολογία εξετάζει την σημασία των λέξεων και την εξέλιξή της. Λ.χ. «νόστιμος» αρχικά σήμαινε «αυτός που σχετίζεται με τον νόστο = επιστροφή», αλλά τελικά κατέληξε να σημαίνει «εύγευστος». Ο συνδετικός κρίκος ήταν το ότι η ημέρα της επιστροφής στην πατρίδα ήταν κάτι το «λαχταριστό».

Στην φυλογενετική ταξινόμηση των γλωσσών, η γραμματική και η μορφολογία έχουν το μεγαλύτερο «ειδικό βάρος» συγγένειας, ενώ η φωνολογία είναι ο πιο εύχρηστος τρόπος για να χρονολογήσουμε την διάσπαση/απόσχιση των γλωσσών. Αυτό το τελευταίο συμπέρασμα για την σχέση φωνολογίας και χρονολόγησης θα φανεί παρακάτω.

Από εκεί και μετά, ο βασικός κανόνας κάθε φυλογενετικής ταξινόμησης σε οποιονδήποτε τομέα είναι το ότι οι κοινοί νεωτερισμοί έχουν μεγαλύτερο «ειδικό βάρος» συγγένειας από τους κοινούς αρχαϊσμούς. Η κοινή διατήρηση ενός αρχαϊκού στοιχείου δεν προϋποθέτει κοινό πρόγονο. Αντίθετα, οι κοινοί νεωτερισμοί είναι πιθανότερο να συμβούν μια φορά και να κληροδοτηθούν παράλληλα σε θυγατρικούς κλάδους από το να προκύψουν πολλαπλές φορές ανεξαρτήτως σε διαφορετικούς κλάδους.

Θα δώσω ένα παράδειγμα. Το ότι η Ελληνική και η Λατινική διατήρησαν την Μέση ΠΙΕ ενεργητική μετοχή σε *-nt- (*bher-e/o-nt- > φέρων/φέροντα ~ ferens/ferentem) δεν αποτελεί ιδιαίτερο δείκτη συγγένειας των δύο ΙΕ γλωσσών. Αντίθετα, η καινοτομική παρελθοντική άυξηση *e- που απαντά στην Ελληνική, την Αρμενική, την Φρυγική και στον Ινδο-Ιρανικό κλάδο (λ.χ. φέρω > φερον ~ σανσκρ. abharam ~ αρμ. eber και τίθημι > θηκα ~ φρυγικό δᾱες < *e-dhē-es), σημαίνει πως οι γλώσσες αυτές μάλλον προέρχονται από την ίδια (σχετικά ύστερη) μητρική ΠΙΕ διάλεκτο.

Θα παραθέσω δυο σελίδες με το μεγαλύτερο «ειδικό βάρος» συγγένειας των κοινών νεωτερισμών και της μορφολογίας.

shared-innovation-retension

Germanic-Ringe

Όλοι αυτοί οι κανόνες «ειδικών» βαρών που είναι γνωστοί στους γλωσσολόγους, ΔΕΝ χρησιμοποιήθηκαν στο πρόγραμμα των Bouckaert, Atkinson, Gray κα. Το μόνο στοιχείο που δόθηκε στο πρόγραμμα του υπολογιστή είναι μια λίστα 200 περίπου αναδομημένων ΙΕ ριζών και η παρουσίαση των ΙΕ γλωσσών ως διανύσματα με 200 συνιστώσες. Η κάθε συνιστώσα του διανύσματος είχε την τιμή [1] αν διέθετε την ρίζα και την τιμή [0] αν δεν την διέθετε.

Τι προέκυψε από αυτήν επεξεργασία δεδομένων; Το παρακάτω δενδρόγραμμα με τις πιθανότερες χρονολογίες κάτω

IE_tree

Ας δούμε τώρα πόσο καλό ήταν το “best fitting” δενδρόγραμμα;

1) H γλώσσα των Ρομά (Ρομάνι)

Η γλώσσα των Ρομά (Ρομάνι, δηλαδή τα γύφτικα) ως γνωστόν ανήκει στον Ινδικό κλάδο της ΙΕ οικογένειας. Το πρόγραμμα χρονολόγησε την απόσχιση της Ρομάνι από τον Ινδικό κορμό 3500 χρόνια πριν, δηλαδή γύρω στο 1500 π.Χ. . Πόσο έξω λέτε να έπεσε από τις εκτιμήσεις των γλωσσολόγων; 2500 χρόνια νωρίτερα !!! 🙂

Το πρόγραμμα που κατέληξε στο συμπέρασμα ότι η η πρώτη διάσπαση της ΙΕ οικογένειας (δηλαδή η απόσχιση της Ανατολιακής οικογένειας) έγινε το 6700±700 π.Χ. … έπεσε έξω στην απόσχιση της Ρομάνι 2500 χρόνια νωρίτερα !!!

Πως ξέρουμε πότε αποσχίστηκε η Ρομάνι από τις υπόλοιπες ινδικες γλώσσες; Γιατί είναι μια Νεοϊνδική γλώσσα και η μετάβαση από τις Μέσες στις Νεοϊνδικές γλώσσες έγινε γύρω στο 1000 μ.Χ. Μέχρι το ~1000 π.Χ. οι Ινδικές γλώσσες διατήρησαν τα παραδοσιακά τρία γένη (αρσενικό, θηλυκό, ουδέτερο) της μέσης και ύστερης ΠΙΕ. Κατά την μετάβαση από τις Μέσες Ινδικές στις Νεοϊνδικές γλώσσες το σύστημα των τριών γενών απλοποιήθηκε από τριγενές σε διγενές με την απώλεια του ουδέτερου γένους. Τα ουδέτερα των ινδικών γλωσσών έγιναν ή αρσενικά ή θηλυκά. Η Ρομάνι έχει χάσει το ουδέτερο γένος όπως οι άλλες Νεοϊνδικές γλώσσες και μάλιστα συμφωνεί πλήρως λ.χ. με την Hindi στην μετάθεση των ουδετέρων. Φανταστείτε ότι υπάρχουν 100 (και ίσως περισσότερα) ουδέτερα που πρέπει να γίνουν ή αρσενικά ή θηλυκά. Ποια η πιθανότητα δύο γλώσσες που είχαν ήδη διασπαστεί πριν από το 1000 μ.Χ. (και σύμφωνα με τους Bouckaert κα. 2500 χρόνια πριν από 1000 μ.Χ.) να συμφωνήσουν πλήρως στην αναδιάταξη των 100 και ουδετέρων;

Το κάθε ουδέτερο μπορεί να αναδιαταχθεί ή σε αρσενικό ή σε ουδέτερο, άρα είναι κορώνα-γράμμα (50%-50%). Ποια είναι η πιθανότητα δύο άτομα να παίξουν κορώνα-γράμμα 100 φορές και να έχουν τα ίδια ακριβώς αποτελέσματα; Είναι (1/2)^100 ~ 8×10^(-31) δηλαδή 8 δια 10 με άλλα 30 μηδενικά!

Να τα κάνουμε 50 τα κοινά αναδιεταγμένα ουδέτερα; (1/2)^50 ~ 9×10^(-16), δηλαδή περίπου 1 στις 10 με άλλα 14 μηδενικά!

Θυμίζω πως η πιθανότητα να πιάσεις στο Τζόκερ “5+1” είναι ~ 1 στα 25 εκατομμύρια ή ~ 4 στις 10 με άλλα 7 μηδενικά!

Η πιθανότητα να πιάσεις δύο συνεχόμενες φορές το Τζόκερ είναι ~ 16 στις 10 με άλλα 16 μηδενικά!

Δηλαδή η πιθανότητα η Ρομάνι να αποσχίστηκε πριν το 1000 μ.Χ. από τις υπόλοιπες Ινδικές γλώσσες είναι πάνω κάτω ίση με την πιθανότητα να πιάσεις το Τζόκερ δύο συνεχόμενες φορές !!!

Romani

Πως να θεωρήσεις λοιπόν ως αξιόπιστο ένα πρόγραμμα που σου λέει ότι ο Ανατολιακός κλάδος αποσχίστηκε γύρω στο 6700±700 π.Χ. όταν πέφτει έξω 2500 χρόνια με την γλώσσα των Ρομάνι;

Και εδώ πρέπει να αναρωτηθούμε γιατί έπεσε τόσο έξω το πρόγραμμα με την Ρομάνι; Ο λόγος είναι, όπως εξηγεί η Pereltsvaig στην παραπάνω σελίδα, ότι εμφανίζει πάρα πολλά μη Ινδικά δάνεια (πολλά ελληνικά και τουρκικά και, σε μικρότερο βαθμό, κουρδικά και αρμενικά) που δεν απαντούν στις άλλες ινδικές γλώσσες. Μερικά ελληνικά δάνεια στηνΡομάνι είναι τα παρακάτω:

δρόμος > drom

ζουμί > zumin = «σούπα»

χολή > χoli = «θυμός»

πάλι > pale = «πάλι»

ακόμη > komi = «ακόμη»

εφτά > efta

οχτώ > oχto

εννιά > enja

Ένα πρόγραμμα που υπολογίζει φυλογενετικές συγγένειες μόνο βάσει λεξιλογίου θα θεωρήσει μια γλώσσα με πολλά τέτοια ξένα δάνεια ως πιο απομακρυσμένη από τις άλλες και ο μόνος τρόπος που διαθέτει το πρόγραμμα για να δηλώσει την απομάκρυνση είναι να την θεωρήσει πρόωρα αποσχισμένη.

Γι΄αυτό έπεσε έξω 2500 χρόνια έξω το πρόγραμμα.

2) Η απόσχιση της Σαρδινικής.

Στο δενδρόγραμμα των Bouckaert κα. η Σαρδινική γλώσσα (προτιμώ την γραφή Σαρδινία από το Σαρδηνία, διότι το λατινικό όνομα ήταν Sardinia και στην τοπική γλώσσα είναι Sardigna, ενώ στην Ιταλική έχει γίνει Sardegna και οι αρχαίοι Έλληνες ονόμαζαν το νησί Σαρδώ και το παράγωγο επίθετο ήταν Σαρδώνιος) αποσχίζεται περίπου 500 χρόνια πριν, δηλαδή γύρω στο 1500 μ.Χ.

sardinian

Η ημερομηνία αυτή δείχνει καθυστέρηση 1000 ετών ως προς την παραδοσιακή χρονολογία απόσχισης των γλωσσολόγων, που θέλει την Σαρδινική γλώσσα να είναι η πρώτη Ρωμανική γλώσσα που αποσχίζεται από τον ρωμανικό κορμό γύρω στο 500 μ.Χ. . Γιατί οι γλωσσολόγοι χρονολογούν την απόσχιση της Σαρδινικής γύρω στο 500 μ.Χ.; Η Σαρδινική είναι η μόνη ρωμανική γλώσσα που απέφυγε γενικώς την ουράνωση των υπερωικών k,g  πριν από πρόσθια φωνήεντα (i,e). Αυτή είναι μια φωνολογική διαδικασία που κατά τον 6° αιώνα είχε επεκταθεί σε όλο το υπόλοιπο Ρωμανικό συνεχές ακόμη και στην Ανατολική Βαλκανική Ρωμανική (πρόγονος Βλαχικής και Ρουμανικής) που αποσχίστηκε δεύτερη μερικούς αιώνες αργότερα.

Έτσι το λατινικό decem (/dekem/= «δέκα» έγινε dieci (/dječi/) στα Ιταλικά, dis στα παλαιά Γαλλικά, zece (/zee/) στην Ρουμανική κλπ. Η Σαρδινική έχει deghe (/dege/). Παρομοίως, το  λατινικό gener (/gener/) = «γαμπρός» έγινε genero (/dzenero/) στα Ιταλικά, dzinire στη Βλαχική κλπ, αλλά gheneru (/generu/) στην Σαρδινική.

Λοιπόν παραθέτω τις παρακάτω σελίδες:

α) Χρονολογία της εξάπλωσης της ουράνωσης k>č και g>dz στην ύστερη Λατινική: ~500 μ.Χ.

latin-tj-kj

β) Η Σαρδινική ως η πρώτη Ρωμανική γλώσσα που απομονώθηκε/αποσχίστηκε γύρω στο 500 μ.χ. λίγο πριν την απόσχιση της ΑΒΡ:

sard-split

Επομένως, στα 2500 χρόνια που έπεσε έξω το πρόγραμμα με την γλώσσα των Ρομάνι πρέπει να προσθέσουμε τα 1000 χρόνια που έπεσε έξω με την Σαρδινική.

3) Η καταστροφή του Σλαβικού δένδρου

Το πρόγραμμα των Bouckaert κα δίνει την εξής κλαδοποίηση για τις σλαβικές γλώσσες.

Slavic

Αντίθετα με την παραδοσιακή ταξινόμηση των σλαβικών γλωσσών, θεωρεί την Πολωνική Ανατολική και όχι Δυτική Σλαβική γλώσσα και πιο στενά συγγενική με την Λευκορωσική και την Ουκρανική απ΄ότι η Ρωσική.

Η Ρωσική εδώ, όπως και η Ρομάνι προηγουμένως, είναι η πρώτη Ανατολική σλαβική γλώσσα που αποσχίζεται λίγο μετά το 1000 μ.Χ., ενώ η Πολωνική αποσχίζεται από την Λευκορωσική γύρω στο 1500 μ.Χ. .

Ποια είναι τα σφάλματα εδώ; Όλοι οι γλωσσολόγοι θα σας πουν ότι η Πολωνική είναι δυτική σλαβική γλώσσα και ότι ο Ανατολικός κλάδος διασπάστηκε γύρω στον 15° μ.Χ. αιώνα όταν οι τρείς γλωσσικοί πόλοι που εξελίχθηκαν στις τρεις γλώσσες (Ρωσσική, Ουκρανική και Λευκορωσική) είχαν πια γίνει αρκετά εμφανείς.

Ο λόγος που η Ρωσική αποσχίστηκε νωρίς οφείλεται στο ότι η Ρωσική έχει πολλά ξένα δάνεια από τις γλώσσες της δυτικής Ευρώπης και από την Ελληνική στην θρησκευτική σφαίρα. Αυτό την απομάκρυνε στα «μάτια» του υπολογιστή, ο οποίος αναγκάστηκε να την αποσχίσει πρώωρα ώστε να δημιουργήσει την απαραίτητη απόσταση με τις άλλες δύο.

Αλλά το μεγάλο σφάλμα είναι στην ταξινόμηση της Πολωνικής. Ο πρόγονος της Πολωνικής μπορεί να αποδειχθεί ότι είχε αποσχιστεί από τον πρόγονο των Ανατολικών σλαβικών γλωσσών ήδη ήδη κατά την περίοδο 600-900 μ.Χ. . Κατά αυτήν την περίοδο συνέβησαν δύο γνωστές φωνολογικές διαδικασίες στις οποίες η Πολωνική συμφωνεί με τις άλλες Δυτικές Σλαβικές γλώσσες, ακολουθώντας διαφορετική πόρεία από τις Ανατολικές.

α) Η πρώτη φωνολογική διαδικασία είναι η λεγόμενη Δεύτερη Σλαβική Ουράνωση (ΣΟ2) που έγινε μετά την Πρώτη (ΣΟ1). Το προϊόν της πρώτης σλαβικής ουράνωσης ήταν kj>č και *gj>dž>ž πριν από πρόσθια φωνήεντα (j,i,e). H ΣΟ1 ήταν ενεργή μέχρι τα μέσα του 6ου μ.Χ. αιώνα (όπως μαρτυρούν παλαιοβαλκανικά τοπωνύμια όπως Δυρράχιον/Durrachium > ΟCS Dŭračĭ και Suacium > Svač).

Όταν η ΣΟ1 ολοκλήρωσε τον κύκλο της και έγινε η μονοφθογγοποίηση του yat *ai>æ>ě προέκυψε ένα νέο πρόσθιο φωνήεν και τα υπερωικά πριν από αυτό που είχαν γλιτώσει την ΣΟ1 υπέστησαν την ΣΟ2, μόνο που τώρα το προϊόν ουράνωσης ήταν kj>c και gj>dz>z (θυμίζω ότι č= /tš/, c=/ts/). Η ΣΟ2 ήταν ενεργή κατά την περίοδο ~ 550-700 μ.Χ. .

Παράδειγμα της ΣΟ2 είναι ο σλαβικός συγγενής της λέξης ποινή. Ο κοινός πρόγονος ήταν το ΠΙΕ *kwoi-neh2 (λιθουανικό kaina).

O πρωτο-σλαβικός τύπος μέχρι το ~550-600 μ.Χ. ήταν ολόιδιος με τον λιθουανικό (kaina). Αλλά ο σχηματισμός του yat έκανε την λέξη *kaina > kæna > kěna, η οποία λόγω της ΣΟ2 έγινε cěna .

Αντίστοιχα, η λατινική λέξη Caesar εισήλθε, μέσω κάποιας πρώιμης γερμανικής γλώσσας, στην πρωτο-σλαβική ως kaisarjĭ > kæsarjĭ > kěsarjĭ > cěsarjĭ .

Έτσι λ.χ. το λατινικό acetum εισήλθε στην πρωτο-σλαβική δείχνοντας την ΣΟ2 και όχι την ΣΟ1 (ocĭtŭ), άρα εισήλθε μετά το ~550 μ.Χ. .

Τώρα αυτό που χαρακτηρίζει τον Δυτικό σλαβικό κλάδο είναι ότι, αντίθετα με τους άλλους δύο, δεν ακολούθησε την ΣΟ2 στα συμπλέγματα kvě– και gvě-.

Θα το καταλάβετε μόλις δείτε την λίστα με τους απογόνους του πρωτο-σλαβικού *gvězda = «αστέρι». Οι Νότιες και οι Ανατολικές σλαβικές γλώσσες έχουν zv- και οι Δυτικές έχουν gv- (που στην Τσεχοσλοβακική αργότερα έγινε hv-).

β) Αργότερα, κατά τον 9° αιώνα, η μετάθεση των υγρών τριχοτόμησε τον σλαβικό κόσμο. Έτσι η πρωτοσλαβική αγελάδα *korva εξελίχθηκε ως εξής:

– Ο Δυτικός κλάδος έκανε μετάθεση χωρίς έκταση (*korva > krova). H Τσεχοσλοβακική εδώ συμπεριφέρεται σχιζοφρενικά, ίσως λόγω κυριλλο-μεθοδιανής επίδρασης.

–  Ο Ανατολικός κλάδος ακολούθησε πλειοφωνία (*korva > korova)

– Ο Νότιος κλάδος έκανε μετάθεση με έκταση φωνήεντος (CoRC > CRōC > CRāC > CRaC, *korva > krava)

Βλέπουμε, με άλλα λόγια, την Πολωνική ν΄ακολουθεί διαφορετική πορεία από τις Ανατολιακές γλώσσες καθ΄όλη την περίοδο 600-900. Πως είναι δυνατόν λοιπόν να είναι ένα με την Λευκορωσική μέχρι το 1500 μ.Χ. και, την ίδια στιγμή, η Ρωσική ν΄αποσχίζεται πρώτη από τις αδελφές τις γύρω στο 1000 μ.Χ.;

Προφανώς δεν γίνεται. Απλώς το πρόγραμμα ήταν ανίκανο να αξιολογήσει τις φωνολογικές εξελίξεις που δείχνουν την τριχοτόμηση του σλαβικού κλάδου και παρέχουν χρήσιμες πληροφορίες για την χρονολόγησή της, όπως δεν ήταν σε θέση να συνειδητοποιήσει την «τεχνητή» απόσταση που δημιούργησαν τα σύγχρονα ξένα δάνεια της Ρωσικής. Και ο λόγος που δεν μπορούσε να το κάνει ήταν το ότι προγραμματίστηκε έτσι ώστε να αναλύσει την ομοιότητα διανυσμάτων με μόνο λεξικής φύσεως συντεταγμένες (ύπαρξη ή μή μιας ρίζας).

Επομένως το “best fitting tree” (καλύτερα ταιριαστό δένδρο) των Bouckaert κα. που μας έδωσε το δεδομένο 6700± 700 π.Χ. για την απόσχιση της Ανατολικής -που παρουσιάστηκε ως επιχείρημα υπέρ της Ανατολιακής θεωρίας- ήταν ένα δενδρόγραμμα που:

i) Χρονολόγησε 2500 χρόνια πιο μπροστά την απόσχιση της Ρομάνι από τις υπόλοιπες Ινδικές γλώσσες.

ii) Χρονολόγησε 1000 χρόνια πιο πίσω την απόσχιση της Σαρδινικής.

iii) Ήταν ανίκανο να ταξινομήσει σωστά τις σλαβικές γλώσσες.

Το αστείο είναι πως το πρόγραμμα ουδέποτε απέδειξε την Ανατολία ως κοιτίδα, απλώς έβγαλε μια ημερομηνία που έτυχε να ταιριάζει με αυτήν που πρότεινε η Ανατολιακή θεωρία. Αλλά τι να το κάνουμε το δεδομένο 6700± 700 π.Χ. όταν πιάνουμε το πρόγραμμα να σφάλλει -2500 και +1000 στο υπόλοιπο δένδρο;

iv) Τα άλλα ανεξήγητα σφάλματα τα οποία απλώς θα αναφέρω είναι το ότι η Ελληνική μπήκε σε κοινό κλάδο με την Αλβανική, και η Αρμενική με την Τοχαρική (τα ζεύγη αυτά είναι τα κατώτερα στο δενδρόγραμμα). Το δεύτερο ζεύγος είναι εντελώς ανυπόστατο,ενώ η Ελληνική και η Αλβανική σχετίζονται μόνο με 2ου βαθμού συγγένεια, δηλαδή οι άμεσοι συγγενείς της Ελληνικής είναι οι λοιπές γλώσσες του Ελληνο-Αρίου κλάδου και η Αλβανική βρίσκεται κάπου ανάμεσα στον Ελληνο-Άριο και στον Βαλτο-Σλαβικό κλάδο στις ισογλωσσικές της συγγένειες.

Advertisements

23 Comments

Filed under Γλωσσολογία, Ινδοευρωπαϊκά θέματα

23 responses to “Η ΙΕ κοιτίδα #2: η επίθεση κατά της γλωσσολογίας

  1. Kostas

    Η κριτική που κάνουν αυτοί οι δύο είναι υπερβολική και ίσως λίγο αντιδεοντολογική. Δεν έχω διαβάσει το paper για να ξέρω πως ακριβώς παρουσιάζουν τα αποτελέσματα αλλά στην επιστήμη λες κάνω αυτές τις παραδοχές, έχω αυτά τα δεδομένα και αυτά τα αποτελέσματα. Αυτό κάναν και είναι ενδιαφέρον το πόσο ακριβή είναι τα αποτελέσματα δεδομένου ότι μιλάμε για έναν μη επιβλεπόμενο αλγόριθμο. Προφανώς και θα βγάλει λάθος στις περιπτώσεις δανεισμού γιατί δεν περιλαμβάνεται στις παραδοχές του. Το μοντέλο αλλαγής των γλωσσών είναι αναγκαστικά απλοποιημένο. Πάντα τα υπολογιστικά μοντέλα είναι απλοποιημένα γιατί αλλιώς γίνονται intractable πολύ εύκολα. Το θέμα είναι πόσο robust είναι αυτό το δέντρο πειράζοντας τις παραμέτρους οι ίδιοι στο faq τους λένε οτι είναι (χωρίς να ξέρω τι παραμέτρους άλλαξαν). Επίσης έχουν συμπεριλάβει και ένα μοντέλο γεωγραφικής εξάπλωσης των γλωσσών μέσω διάχυσης (περιλαμβάνει μόνο διαφοροποίηση ξηράς/θάλασσας) και από εκεί προκύπτει η ανατολία. Φυσικά η ανατολία είναι κοντά στην μέση της κατανομής είναι πιθανό ένα οποιοδήποτε απλό μοντέλο διάχυσης να βγάλει κάτι κοντά στην ανατολία. Σχετικά με αυτό ειδικά η κριτική των δύο είναι αστεία. Ειρωνευόταν τους συγγραφείς επειδή “για 1000 χρόνια η διάδοση είχε σταματήσει μεσ τη μέση του ατλαντικού μέχρι να φτάσει την ισλανδία” . Προφανώς κανένα μοντέλο δεν μπορεί να προβλέψει την εποίκηση της ισλανδίας, γιατί ήταν τυχαίο γεγονός. Όσο πολύπλοκο και να είναι και όσες prior πληροφορίες να του δώσεις δεν μπορεί να το κάνει. Το μοντέλο ξέρει μόνο ξηρά θάλλασα. Προφανώς θα δείχνει για μεγάλο χρόνο την εξάπλωση να επεκτείνεται στην θάλλασα, κάτι που προφανώς είναι αδύνατον. Να ξέρουμε τι είναι αυτό που βλέπουμε πριν πούμε βλακείες.

    Όσο λοιπόν δεν καταλαβαίνουν την γλωσσολογία κάποιοι βιολόγοι κάποιοι γλωσσολόγοι δεν καταλαβαίνουν τα υπολογιστικά μοντέλα. Την γενική εικόνα πρέπει να κοιτάς, όχι τις λεπτομέρειες. Αναγκαστικά πολλές από αυτές θα είναι τελείως λάθος. Επίσης τα αποτελέσματα ενός μη επιβλεπόμενου αλγόριθμου είναι πολύ ενδιαφέροντα από μόνα τους. Αν πας και αφαιρέσεις τα δάνεια δεν έχει νόημα να μιλάς για μη επιβλεπόμενο αλγόριθμο. Έχεις ενσωματώσει prior δεδομένα τα οποία προυποθέτουν τα ευρήματα της ιστορικής γλωσσολογίας οπότε κάνεις μια τρύπα στο νερό (αν και ήδη έχεις ενσωματώσει κάποια, αναγκαστικό είναι εξάλλου…).
    Όσον αφορά την χρονολόγηση δεν ξέρω πως προκύπτει οπότε δεν έχω κάτι να πω. Γενικά κανείς δεν δέχεται τέτοιες μεθόδους ως conclusive αλλά έχουν τη θέση τους. Αν δεις στο language classification by numbers (όπως λογικά ξέρεις) έχει μια πιο σοβαρή συζήτηση του θέματος.

    Το θέμα λοιπόν είναι τι ακριβώς παραδοχές κάναν και τι αποτελέσματα βγάλαν. Τώρα να κάθεσαι και να τους βρίζεις γιατί δεν είναι συμβατά με την ιστορική γλωσσολογία δεν έχει νόημα και είναι και κάπως άκομψο. Τα αποτελέσματα προφανώς δεν είναι conclusive και για να τα κρίνεις πρέπει να ξέρεις από ιστορική γλωσσολογία. Προφανώς και τα ρομα δεν διαχωρίστηκαν το 1500 π.χ αλλά δεν έχει σημασία. Είναι απλά τρελό να περιμένεις από έναν τέτοιο αλγόριθμο να αναπαράξει όλα τα γλωσσολογικά ευρήματα.Το θέμα είναι να τον τρέξεις και με άλλα δεδομένα, να τον επεκτείνεις και με πιο πολύπλοκες παραδοχές και επιπλέον μηχανισμούς κτλπ. και μετά να καταλάβεις πως συμπεριφέρεται και τελικά τι ακριβώς αυτό που βγάζει σαν αποτέλεσμα.

    • Καλώς τον Κώστα!

      Καλά δεν τους «βρίζουν», τα λάθη τους επισημαίνουν. Όπως ξεκαθαρίζουν ότι δεν τα βάζουν με την υπολογιστική γλωσσολογία (computational linguistics), αλλά με το συγκεκριμένο δενδρόγραμμα και τα δεδομένα που «τάισαν» στον υπολογιστή.

      Σαφώς και η υπολογιστική γλωσσολογία έχιε πολλά να προσφέρει, όπως εξηγεί η MacMahon στο language classification by numbers, όπου περιγράφετια λ.χ. το πως χρησιμοποίησε το πρόγραμμα Splitstree ο Ringe.

      Ο σκοπός είναι να μάθεις τον υπολογιστή να ταξινομεί με βάση τα κριτήρια της γλωσσολογίας. Τότε θα γίνουν χρήσιμα αυτά τα προγράμματα.

      Όσο για την Ανατολία στο μοντέλο διάχυσης, αυτό δεν ήταν output του υπολογιστή, αλλά θεώρησαν αυτοί a priori ότι η κοιτίδα ήταν η Ανατολία και ο υπολογιστής απλώς έκανε την διάχυση από εκεί.

      Αρχίζει να συζητάει το άρθρο των Bouckaert στο [02:00] και στο [06:00] λέει ότι η Ανατολία ως κοιτίδα ήταν προκαθορισμένη (predetermined), γιατί «τάισαν» το δεδομένο στον υπολογιστή να θεωρήσει τον Ανατολιακό κλάδο ιθαγενή της Ανατολίας (and so they put Anatolian in Anatolia a priori).

      Αλλά δεν με ενδιαφέρει το μοντέλο γεωγραφικής εξάπλωσης. Αυτό κάθε άνθρωπος μπορεί να καταλάβει ότι δεν μπορεί να είναι ακριβές, δηλαδή δεν μπορεί να προβλέψει τις πραγματικές μεταναστεύσεις και τις διαδρομές που ακολουθήθηκαν. Εγώ εστιάσα στην «κακή γλωσσολογία» που έκαναν για την παραγωγή του δενδρογράμματος.

      Στηρίχτηκαν μόνο σε λεξιλογικά δεδομένα (αφήνοντας απέξω σημαντικότερα κριτήρια φυλογενετικής συγγένειας και τις δυνατότητες χρονολογήσεως που προσφέρουν τα φωνολογικά δεδομένα) και ακόμα και με τα λεξιλογικά τους δεδομένα δεν φρόντισαν να λύσουν το πρόβλημα των δανείων.

      H Macmahon στο Language Classification by Numbers λέει «δεν μπορείς να έχεις καλή επιστήμη με κακά δεδομένα». Η περίπτωση των Bouckaert αποδεικνύει ακριβώς αυτή τη φράση.

      • Kostas

        Κοίτα το αν τους βρίζουν ή όχι είναι σχετικό. Εγώ αυτό το θεωρώ βρίσιμο. Η ειρωνεία τους και το ύφος τους δεν αρμόζει σε επιστήμονες. Παίζουν και άλλα πράματα από πίσω. Υπονοούν ότι έχουν κάποιου είδους ατζέντα (ότι κάποιοι θέλουν την κοιτίδα στην Ανατολία επειδή εξυπηρετεί κάποια ιδεολογία η οποία δεν κατονομάζεται). Τεσπά όλα αυτά είναι περίεργα και λίγο έξω από τη δεοντολογία της επιστήμης. Γιαυτό και δεν είναι δημοσιευμένα και τα κάνουν σε μπλογκ και διαλέξεις.

        Τα κριτήρια της γλωσσολογίας δεν είναι ενιαία. Τα αποτελέσματα αυτού του αλγορίθμου με αυτά τα δεδομένα είναι αυτά. Αν υπολογίσεις δάνεια θα είναι άλλα. Το θέμα είναι το τι θέλουν να κάνουν, και το πως παρουσιάζουν τα αποτελέσματα τους. Δεν το έχω διαβάσει (αλλά τώρα με τρώει πολύ να του ρίξω μια ματιά) αλλά μέσα στο σωστό context δεν υπάρχει πρόβλημα με το να κρατάς τα δάνεια. Ανάλογα πάντα με το τι θες να κάνεις. Εξάλλου τα φυλογενετικά δέντρα είναι μια προσέγγιση της σχέσης των γλωσσών. Οι γλώσσες δεν είναι ζωντανοί οργανισμοί που αναπαράγονται. Και στης μακμάχον το βιβλίο έχει μέσα διάφορους αλγορίθμους που κοιτάνε μόνο λίστες με cognates. Νομίζω αναφέρεται και το Bouckaert et al 2012. Δεν μπορώ να θυμάμαι τώρα ακριβώς τι κάνει ο καθένας και που χρησιμοποιείται.

        Όσο για το μοντέλο διάχυσης φαντάζομαι ότι αυτό δίνει την πιθανότερη λύση για το αρχικό σημείο διασποράς δεδομένης της κατανομής σε κάποιο αργότερο χρόνο. Αν του το δίνεις εσύ τι ακριβώς κάνει αυτό? Λίγο περίεργο το να βάλαν αρχικό σημείο την ανατολία. Κάτι άλλο θα κάναν. Π.χ αν τοποθέτησαν και αρχαίες γλώσσες και δίναν χρονολογίες τότε αν βάλεις την παλιότερη στην ανατολία θα γίνουν skewed τα αποτελέσματα προς την ανατολία. Αυτό είναι ένα πρόβλημα αλλά αφού η παλιότερη γλώσσα (που ξέρουμε) ήταν στην ανατολία τι να κάνουμε! Δεν ξέρω τι πάει να πει ιθαγενής. Εμείς έχουμε χρονολογίες και τοποθεσίες.

        Η κριτική τους (άλλα όχι το ύφος τους) δικαιολογείται μόνο αν τα συμπεράσματα τους δεν δικαιολογούνται από τις παραδοχές, τα δεδομένα και τα αποτελέσματα τους. Αυτό δεν το ξέρω αν ισχύει, θα πρέπει να διαβάσω την δημοσίευση. Στα μέσα παρουσιάστηκε σαν να βρέθηκε η κοιτίδα αλλά τα μέσα μονίμως παραχαράσσουν τα λόγια των επιστημόνων.

      • Γιαυτό και δεν είναι δημοσιευμένα και τα κάνουν σε μπλογκ και διαλέξεις.

        Μα έχουν βγάλει και βιβλίο (The IE controversy: Facts and Fallacies in Historical Linguistics) το οποίο σε λίγο άκουσα ότι θα βγει και paperback (στο ένα τρίτο της τιμής).

        Η Pereltsvaig κάνει μια σύνοψη της κριτικής τους και στο βιβλίο της Languages of the World που εκδόθηκε από τον Cambridge University Press.

        Τώρα για το ύφος, φαντάσου κάποιον να έρχεται και να σου λέει ότι ο όγκος της σφαίρας δεν είναι 4πR^3/3, αλλά λ.χ. 5πR^3 και ως απόδειξη να σου δίνει κάτι στο οποίο, όποιος ξέρει μαθηματικά βλέπει ένα σφάλμα σε κάθε δυο γραμμές.

        Όποιος θέλει να ασχοληθεί με γλωσσολογικά θέματα, πρέπει πρώτα να κατανοήσει τις αρχές της γλωσσολογίας. Είναι 20 χρόνια που μη γλωσσολόγοι προσπαθούν να κάνουν γλωσσολογία χωρίς τους γλωσσολόγους. Η απάντηση του Smith ήταν πιο απότομη αν και το παράδειγμά του όχι το καλύτερο:

        «Η γλωσσολογική θεωρία δεν επηρεάζεται από το ότι το αντικείμενό της ενδιαφέρει και άλλους (μη γλωσσολόγους): Οι θεωρίες του υδρολόγου/ρεολόγου δεν επηρεάζονται από το φτύσιμο».

        Δηλαδή όλοι φτύνουν σάλιο που είναι ρευστό, αλλά όλοι δεν είναι υδρολόγοι/ρεολόγοι.

        Κάποτε ήταν ο γενετιστής Cavalli-Sforza που είχε «αποδέιξει» γενετικά την Ανατολιακή υπόθεση του Renfrew. Το 2006 άλλαξε έβαλε και αυτός την ουρά στα σκέλια και υιοθέτησε ένα “plan B” όπως έκανε το 2003 ο Renfrew. H κοιτίδα είναι οι Στέπες του 4000 π.Χ. , έλεγε τώρα ο Cavalli-Sforza, αλλά η γενετική καταγωγή των «Στεπαίων» ήτνα από τους πρώτους νεολιθικούς πληθυσμούς της Ααντολίας.

        A similar compromise theory is explored in Piazza and Cavalli-Sforza (2006), though they end up siding with the Steppe theory:

        “…if the expansions began at 9,500 years ago from Anatolia and at 6,000 years ago from the Yamnaya culture region, then a 3,500-year period elapsed during their migration to the Volga-Don region from Anatolia, probably through the Balkans. There a completely new, mostly pastoral culture developed under the stimulus of an environment unfavorable to standard agriculture, but offering new attractive possibilities. Our hypothesis is, therefore, that Indo-European languages derived from a secondary expansion from the Yamnaya culture region after the Neolithic farmers, possibly coming from Anatolia and settled there, developing pastoral nomadism.”

  2. Kostas

    Δεν μπορώ να πω ότι μπορώ να βγάλω και πολλά συμπεράσματα διαβάζοντας το. Είναι τραγικά μικρό. Θα ήθελα να δω πολύ περισσότερο υλικό Πάντως οι αντιρρήσεις που έφερα περι διάχυσης και ηλικίας του ανατολιακού κλάδου φαίνεται ότι απαντώνται ικανοποιητικα:

    Conversely, the position of the ancient languages
    in the tree, particularly the three Anatolian
    varieties, might have unduly biased our results
    in favor of an Anatolian origin. We investigated
    both possibilities by repeating the above analyses
    separately on only the ancient languages and
    only the contemporary languages (which excludes
    Anatolian). Consistent with the analysis
    of the full data set, both analyses still supported
    an Anatolian origin

    Further, the geographic centroid of the languages
    considered here falls within the broader steppe
    hypothesis (Fig. 1, green star), indicating that our
    model is not simply returning the center of mass
    of the sampled locations, as would be predicted
    under a simple diffusion process that ignores phylogenetic
    information and geographic barriers.

    • Kostas

      Εγώ δεν βλέπω κανένα γλωσσολογικό πρόβλημα εκτός ίσως από το ότι δεν λαμβάνουν υπόψιν τα δάνεια. Αλλά και αυτό δεν βλέπω πως θα επηρέαζε άμεσα τα αποτελέσματα και κυρίως γιατί να έκανε skew τα αποτελέσματα προς την ανατολία ή γιατί να άλλαζε τις χρονολογίες διάσπασης των κλάδων (και όχι τους υποκλάδους όπως την γλώσσα των ρομά). Η αναλογία με τον όγκο της σφαίρας είναι τελείως άσχετη. Το ένα είναι λάθος, το άλλο δεν είναι. Απλά θα μπορούσε να είχε γίνει αλλιώς. Δεν απορρίπτουν την μεθοδολογία απλώς κάθονται και ξεψιρίζουν τα δεδομένα και τα αποτελέσματα για να βρουν προβλήματα. Δεν παρουσιάζουν ένα σοβαρό επιχείρημα για το αν η μεθοδολογία είναι προβληματική, απλώς κάνουν spread FUD και θόρυβο. Και αυτά τα λέω παρόλο ότι και εγώ δεν θεωρώ πιθανή την κοιτίδα στην απλά γιατί πείθομαι από τα κλασσικά γλωσσολογικά επιχειρήματα.

      • Εγώ δεν βλέπω κανένα γλωσσολογικό πρόβλημα εκτός ίσως από το ότι δεν λαμβάνουν υπόψιν τα δάνεια.
        —-

        Για να δεις τα γλωσσολογικά προβλήματα βρε Κώστα δεν πρέπει να έχεις και κάποιες γνώσεις στην γλωσσολογία; Έχεις διαβάσει κανένα βιβλίο γλωσσολογίας;

        Αφήνω το θέμα των δανείων και την λάθος χρονολόγηση που αυτά προκαλούν στο πρόγραμμα. Αν δεν βλέπεις πρόβλημα σε ένα δενδρόγραμμα που δείχνει ότι η Πολωνική είναι Ανατολική σλαβική γλώσσα, ότι η Σαρδινική διασπάστηκε το 1500 από τον Ρωμανικό κλάδο και ότι η Αρμενική έχει κοινή καταγωγή με την Τοχαρική, τότε τι να πω.

      • Κάνω ένα παράδειγμα, για να σου δείξω τι εννοώ. Εδώ το πρόβλημα το βλέπεις;

        http://postimg.org/image/jqdetg7kh/

      • Kostas

        Προφανώς και έχω διαβάσει βιβλία γλωσσολογίας, πλάκα μου κάνεις τώρα? Σαν να μην διάβασες ούτε ένα από τα σχόλια μου. Έχεις πρόβλημα κατανόησης μου φαίνεται. Απαντάς σαν να μην διάβασες τι λέω.
        Ας τα ξαναπώ λοιπόν: Προφανώς και το διάγραμμα δεν είμαι σωστό. Προφανώς και δεν διαχωρίστηκε η ρομα από τις ινδικές το 1500π.χ προφανως η τοχαρικη δεν έχει καμμία ιδιαίτερη σχέση με την αρμενική. Προφανως αν πάρεις δάνεια θα φαίνεται η ηλικία σου μεγαλύτερη από τους συγγενείς σου . Όλα αυτά είναι κοινή λογική. Δεν μπορώ να καταλάβω τι νομίζεις ότι κάνεις όταν μου τα επαναλαμβάνεις.

        Απλά όλα αυτά δεν έχουν σχέση. όπως είπα είναι παράλογο να περιμένεις από έναν τέτοιο αλγόριθμο να βγάλει ένα “τέλειο” δέντρο (για να το επαναλάβω και αυτό). Όταν πχ τα αρμενικά συνδέονται με τα ελληνικα με μορφολογικές ομοιότητες, πως να βγει στο δέντρο αυτό όταν δεν λαμβάνει υπόψιν μορφολογικές ομοιότητες? Τι νόημα έχει να το συζητάς? Ειδικά για ένα πειπερ που προφανώς και δεν καταλαβαίνεις το τι κάνει και πως. Εσύ κάθεσαι και επαναλαμβάνεις άκριτα λέξη προς λέξη ότι λένε αυτοί χωρίς δεύτερη σκέψη για κοντεξτ αυτών που λένε.

        τέλος πάντων πολλά είπα κι όλας και βαρέθηκα.

      • 1) Απλά όλα αυτά δεν έχουν σχέση. όπως είπα είναι παράλογο να περιμένεις από έναν τέτοιο αλγόριθμο να βγάλει ένα “τέλειο” δέντρο
        2)Εσύ κάθεσαι και επαναλαμβάνεις άκριτα λέξη προς λέξη ότι λένε αυτοί χωρίς δεύτερη σκέψη για κοντεξτ αυτών που λένε.

        Εγώ επαναλαμβάνω άκριτα ρε Κώστα τι λένε; Πρώτα απ΄όλα η φράση σου στο (1) είναι ακριβώς η θέση των Pereltsvaig και Martin. Όπως λένε και αυτοί «τουλάχιστον το πρόγραμμα κατάφερε να ταξινομήσει τους μείζονες κλάδους σωστά».
        Δεν θες όμως ένα πρόγραμμα που προωθήθηκε σαν πανάκεια στο ευρύ κοινό για να καταλάβεις ποια γλώσσα είναι σλαβική και ποια κελτική. Υποτίθεται από ένα τέτοιο πρόβλημα περιμένεις να σου λύσει αυτά που δεν ξέρεις. Αλλά αποδείχτηκε προβληματικό και στην ταξινόμηση (για λόγους που πολύ καλά τους κατάλαβες, έλλειψη μορφολογικών κριτηρίων) και στην χρονολόγηση (για λόγους που επίσης κατάλαβες πολύ καλά, δάνεια και έλλειψη φωνολογικών κριτηρίων).

        Στην ακτινογραφία που σου παρέθεσα το σώμα του ανθρώπου είναι «σε γενικές γραμμές μια χαρά». Λ.χ. υπάρχουν δυο πνεύμονες με αέρα, μια καρδιά ανάμεσά τους κλπ. Είναι η μικρή λεπτομέρεια που δείχνει υποδιαφραγματικό αέρα (το μαύρο/ακτινοδιαφανές στρώμα αέρα αμέσως κάτω από διάφραγμα) που σου δείχνει ότι έχεις πνευμοπεριτόναιο, δηλαδή ή διατρυτικό τραύμα (λ.χ. μαχαιριά) και ο αέρας εσήλθε από έξω ή διάτρυση σε κάποιο σημείο του ενδοπεριτοναϊκού γαστρεντερικού σωλήνα (λ.χ διάτρυση από έλκος στομάχου ή δωδεκαδακτύλου) και ο αέρας βγήκε από τον σωλήνα στην κοιλιακή χωρά και, όντας ελαφρότερος από τα υγρά, ανέβηκε στον διαφραγματικό θόλο (την οροφή της κοιλιακής χώρας) και έδωσε το μαύρο σημείο στην ακτινογραφία του θώρακα.

        Κατά κανόνα, όταν βλέπεις πνευμοπεριτόναιο, ακόμα και αν δεν έχεις δει τον ασθενή με τα μάτια σου, περιμένεις περιτονίτιδα και συμπτωματολογία οξείας κοιλίας.

        Αλλά παρέθεσα αυτό το παράδειγμα, γιατί η διάγνωση πνευμοπεριτοναίου εξαρτάται από την αναγνώριση μιας μικρής λεπτομέρειας σε μια ακτινογράφια που κατά τα άλλα «είναι μια χαρά».

        Φαντάσου τώρα, να είχαμε μια υποθετική ακτινογραφία με τόσο κακή ανάλυση (το αντίστοιχο το δενδρογράμματος) ώστε δεν θα φαινόταν ο υποδιαφραγματικός αέρας.

      • Kostas

        Ωραία εγώ θα επιμείνω, η δουλειά του αλγορίθμου δεν είναι να βγάλει “σωστά” το δέντρο και το θέμα του πειπερ δεν είναι να ταξινομήσει τις ΙΕ γλώσσες. Εσύ κολλάς εκεί επειδή αυτά λένε οι άλλοι και αυτά ξέρεις. ούτε εσύ ούτε αυτοί δεν εξηγούν γιατί η μεθοδολογία είναι προβληματική. Η λογική των συγγραφέων μάλλον θα είναι του στυλ “αν βάλεις πολλά δεδομένα η συνολική εικόνα θα είναι σωστή” όπως αναφέρει και η μακμαχον αυτή η λογική ενδέχεται να ισχύει αλλά είναι και επικίνδυνη. Αυτό δεν το ξέρω. Έχω εμπειρία στο πως συμπεριφέρεται ένας πολύπλοκος MCMC αλγόριθμος σε δεδομένα που έχουν παραχτεί σύμφωνα με το μοντελο και σε πραγματικά δεδομένα, είναι πολύ απρόβλεπτο το αποτέλεσμα. Επίσης το ¨πρόβλημα” που θέλουν να λύσουν είναι η χρονολόγηση και το κέντρο διασποράς και όχι η γενετική ταξινόμηση. Επίσης το κατά πόσον παρουσιάζεται σαν “πανάκεια” ο αλγόριθμος είναι σχετικό και φταίνε και τα μηντια. Εγώ το βλέπω σαν ένα κομμάτι από τα χιλιάδες κομμάτια του παζλ. όπως είδα γραμμένο το πειπερ θεωρώ οτι είναι oversold αλλά είναι ενδιαφέρον. Αν το καταλάβαινα καλύτερα θα είχα περισσότερα να πω.

        Μποτομ λαιν: Αν θες να επιτεθείς στο πειπερ ή θα καταρρίψεις τη μεθοδολογία ή θα εξηγήσεις το πως τα συγκεκριμένα δεδομένα επηρεάζουν τη ΧΡΟΝΟΛΟΓΗΣΗ και το ΚΕΝΤΡΟ ΔΙΑΣΠΟΡΑΣ ή αν δέχεσαι την μεθοδολογία πας και την εφαρμόζεις όπως εσύ θεωρείς σωστό. Κοινώς αν δεν σ αρέσει κάνε κάτι καλύτερο. Αυτό που κάνουν όπως είπα είναι fear uncertainty και doubt, προσπαθούν να κάνουν τρύπες στο πειπερ όπου μπορούν (και πολλές φορές με γελοία επιχειρήματα) και με τρόπο τουλάχιστον άκομψο.

      • Εσύ κολλάς εκεί επειδή αυτά λένε οι άλλοι και αυτά ξέρεις. ούτε εσύ ούτε αυτοί δεν εξηγούν γιατί η μεθοδολογία είναι προβληματική.

        Ρε Κώστα με δουλεύεις τώρα; Δεν γίνεται ακριβές γλωσσικό δενδρόγραμμα μόνο με λεξιλογικά δεδομένα. Χρειάζεσαι και μορφολογικά και αν μπορείς και φωνολογικά.

        Αφού στο προηγούμενο σχόλιο το κατάλαβες αυτό με το παράδειγμα της Αρμενικής που έκανες.

        Τα λεξιλογικά δεδομένα από μόνα τους είναι ανεπαρκή για την δημιουργία ικανοποιητικού δενδρογράμματος. Αυτό θα σου το πει κάθε γλωσσολόγος και θα το βρεις σε κάθε βιβλίο γλωσσολογίας.

        Θα πάρεις ένα δενδρόγραμμα που θα είναι «σε γενικές γραμμές σωστό» (που δεν χρειάζεσαι υπολογιστή για να το σχεδιάσεις), αλλά θα περιέχει ανακρίβειες.

        Για να δουλέψει με ακρίβεια ο αλγόριθμος θα πρέπει κάποιος να τον βελτιώσει κάποιος ώστε να μάθει να αξιοποιεί και τα μορφολογικά κ.α. δεδομένα. Δηλαδή θα πρέπει να «μάθει» να αξιολογεί τα κριτήρια όπως οι γλωσσολόγοι.

        Το κέντρο της διασποράς εμένα δεν με ενδιαφέρει, ούτε καν αναφέρθηκα στην ανάρτηση στο θέμα της κοιτίδας και της διασποράς. Εγώ τα γλωσσολογικά λάθη επεσήμανα.

        ΒΤW, φυλογενετική ταξινόμηση και δενδρόγραμμα είναι το ίδιο πράγμα.

        Το καλύτερο έχει γίνει ρε Κώστα. Βρήκες κανέναν γλωσσολόγο να θεωρεί ότι η Μέση ΠΙΕ είχε διασπαστεί πριν από την εφεύρεση του τροχού; Είναι γνωστό επιχείρημα αυτό και δεν χρειάστηκε υπολογιστή. Μάλλον ο υπολογιστής είναι ανίκανος να συνειδητοποιήσει το πρόβλημα της διάσπασης της Μέσης ΠΙΕ πριν από την εφεύρεση του τροχού. Έτσι δεν είναι;

        Εδώ μην ξεχνάς ποιος επείσακτος μπήκε σε αλλουνού τα λημέρια.

      • Kostas

        Δεν μπορείς να κριτικάρεις το πειπερ χωρίς να αναφερθείς στην κοιτίδα. Αυτό είναι το θέμα του. Το αν κάτι είναι “λάθος” ή όχι εξαρτάται από το κατά πόσον επηρεάζει το αποτέλεσμα του. Επίσης δεν υπάρχουν “λημέρια”. Ο καθένας κάνει ότι νομίζει και το δημοσιεύει. Πρέπει ο καθένας να χρησιμοποιήσει την κρίση του για να ερμηνεύσει το αποτέλεσμα. Δεν το βλέπω σαν επίθεση στην ιστορική γλωσσολογία και δεν καταλαβαίνω τη λυσσαλέα επίθεση εναντίων τους.

      • Λοιπόν συμφωνούμε ότι διαφωνούμε και το κλείνουμε εδώ. Αν θέλεις την ξανανοίγουμε την συζήτηση όταν θα διαβάσω το βιβλίο τους που είναι να βγει paperback.

        Τώρα για την λυσσαλέα επίθεση, ίσως να το έκαναν για να διαφημίσουν το βιβλίο που έβγαλαν. Στο μάρκετινγκ όλα είναι πιθανά.

  3. Γεια χαρά!

    Πω, πωωω… Πολύ τσακώνεστε εσείς οι δύο! Και στο αναμεταξύ, οι “άλλοι” βελτιώνουν τις μεθόδυς τους και τελικά θα φτιάξουν ένα πολυ πιο αξιόπιστο δενδρόγραμμα. 🙂

    Σμερδαλέε, η εφαρμογή προγραμμάτων στοίχισης αλληλουχιών στη γλωσσολογία ξεκίνησε κάπου πριν 2 δεκαετίες και εξελίσσεται. Ενοοείται ότι στην αρχή θα βγάζει (και) εξώφθαλμα λάθη.
    Σάματις και η ιστορική / αρχαιολογική γλωσσολογία δεν έχει πει πράματα που σήμερα τα θεωρούμε πατάτες; Σάματις συμφωνούνε όλοι οι γλωσσολόγοι μεταξύ τους; Και μήπως δεν έχουν γίνει πολλές αναθεωρήσεις;

    Αυτό που βλέπω εγώ είναι ότι παραδοσιακοί, παλιοί γλωσσολόγοι αδυνατούν να κατανοήσουν τις νέες μεθόδους και φοβούνται ότι κάποιοι κάνουν assault στην φωλίτσα τους.
    Σε 20 χρόνια, η νέα γενιά θα χρησιμοποιεί εντελώς φυσικά τις νέες τεχνολογίες και ούτε θα μπορεί να φανταστεί πώς τα ‘φερναν βόλτα οι προκάτοχοί τους παλιά!

    Πάντως συγχαρητήρια για την ανάρτηση, πολύ καλή δουλειά, αν και επέλεξες στρατόπεδο καθώς έγραφες! 🙂

    • Σμερδαλέε, η εφαρμογή προγραμμάτων στοίχισης αλληλουχιών στη γλωσσολογία ξεκίνησε κάπου πριν 2 δεκαετίες και εξελίσσεται. Ενοοείται ότι στην αρχή θα βγάζει (και) εξώφθαλμα λάθη.

      Πάντως συγχαρητήρια για την ανάρτηση, πολύ καλή δουλειά, αν και επέλεξες στρατόπεδο καθώς έγραφες!

      Μα η κριτική της ανάρτησης δεν είναι κατά της Υπολογιστικής Γλωσσολογίας (Computational Linguistics) εν γένει, αλλά κατά μιας συγκεκριμένης απόπειρας μη γλωσσολόγων να την εφαρμόσουν χωρίς να λάβουν υπόψη βασικές αρχές της γλωσσολογίας.

      Υπάρχουν πολλοί σεβαστοί γλωσσολόγοι όπως λ.χ. ο Donald Ringe και η Johanna Nichols που έχουν ασχοληθεί εκτενώς με την Υπολογιστική γλωσσολογία.

      Όσο για την επιλογή στρατοπέδου που λες, σαφώς επέλεξα στρατόπεδο, αυτό της Ιστορικής Γλωσσολογίας (Historical Linguistics).

      Αντίστοιχα, αν έπρεπε να διαλέξω στρατόπεδο στο θέμα του ποιος πρέπει να κάνει εγχειρίσεις καρδιάς, εννοείται ότι θα έπαιρνα το μέρος των καρδιοχειρούργων.

      Έχω πάρει το ίδιο στρατόπεδο, όταν παλαιότερα ένας σχολιαστής μου ζήτησε να εκφράσω την γνώμη μου για την «καχυποψία» ενός αρχαιολόγου για την ισχύ των παραδοσιακών ετυμολογιών που έχουν κάνει οι ΙΕστές γλωσσολόγοι και τις δικές του απόψεις για την ετυμολογία ορισμένων ελληνικών λέξεων.

      Νομίζω πως όποιος δεν είναι σε θέση να καταλάβει ότι η λέξη ἤλιος προέρχεται ξεκάθαρα από την αναδομημένη ρίζα *seh2wel- και δεν γνωρίζει καν ότι οι τύποι ἥλιος/ἅλιος είναι συνηρημένες μορφές των ασυναίρετων ἡέλιος/ἁέλιος και ότι η αξιοπιστία της αναδόμησης για την συγκεκριμένη ρίζα (με τόσους απογόνους) πλησιάζει αυτήν της μαθηματικής απόδειξης, χρειάζεται ο ίδιος «ζουρλομανδύα» (μια λέξη που ο αρχαιολόγος χρησιμοποιεί στο άρθρο του).

      • Η κριτική στην ουσία μπορεί να εκφραστεί λακωνικά με την γνωστή έκφραση των προγραμματιστών “Garbage in garbage out“. Ο υπολογιστής δεν μπορεί να ελέγξει την αξιοπιστία των δεδομένων. Ό,τι δεδομένα του δώσεις, τα επεξεργάζεται και δίνει ένα αποτέλεσμα. Αν του δώσεις «σκουπίδια» για δεδομένα (garbage in) θα πάρεις ως αποτέλεσμα «σκουπίδια» (garbage out). Εδώ έγκειται η ευθύνη του ανθρώπου που φτιάχνει το πρόγραμμα, ο οποίος πρέπει να προσέξει με τι δεδομένα πρέπει να ταΐσει το πρόγραμμα που έχει φτιάξει.

        Δεν έχω την παραμικρή αμφιβολία ότι η Υπολογιστική Γλωσσολογία μπορεί να αποδειχθεί πολλή χρήσιμη στο μέλλον. Αλλά πιστεύω πως για να είναι πραγματικά χρήσιμη θα πρέπει να ασκείται ή από γλωσσολόγους ή, τέλος πάντων, από επιστήμονες που έχουν πρώτα αφιερώσει κάποιο χρόνο κατανοώντας τις αρχές της Ιστορικής Γλωσσολογίας.

  4. Χι, χι! Μόλις σκότωσες των Champollion! 🙂

    Αντιλαμβάνομαι αυτά που λες, αλλά στην πράξη δεν μπορεί, παρά να καταστρατηγούνται πού και πού.
    Τίμια πράγματα: δεν μπορείς να περιμένεις από έναν σουπερ ντούπερ μαθηματικό, εξπέρ – ας πούμε – στα hidden Markov models, να νογά και από γλωσσολογία. Ούτε το ανάποδο.
    Και μη νομίζεις ότι ο μέσος βιολόγος, σήμερα, που χρησιμοποιεί προγράμματα στοίχισης αλληλουχιών, γνωρίζει τους αλγόριθμους, παραμέσα…

    Πιο βιώσιμο είναι να ζητάς να συνεργαστούν οι δυο τους. (Και είναι ΠΟΛΥ δύσκολο!)
    Ε, πάνω εκεί, θα τραγουδηθούν και φάλτσα…

    ΝΟΜΙΖΩ, ότι ο Κώστας προσπαθούσε να σού πει ότι για το μικρό τμήμα τής πληροφορίας (δηλαδή, τις λέξεις των γλωσσών) που έλεγχε ο αλγόριθμος στο paper, τα πήγε καλά και εσύ τού φώναζες ότι επιτρέπεται ΜΟΝΟ ολοκληρωμένα προγραμματιστικά πακέτα (που θα ελέγχουν όλη την πληροφορία: προφορική, γραμματική κ.λπ.) να έρχονται στη δημοσιότητα, γιατί είναι αναμενόμενο ότι δίνουν λάθος αποτελέσματα κ.λπ..

    Ε, δεν είναι βιώσιμο αυτό που λές. 🙂
    Αν δεν δημοσιευτούν,
    α) δεν θα δώσουν ιδέες στους επόμενους
    β) δεν θα πάρουν χρηματοδοτήσεις οι τρέχοντες…

    Κάθε νέα μέθοδος στην αρχή, μπαρμπούτσαλα δίνει.
    Το καημένο το αυτοκίνητο τού Cugnot πήγαινε δεν πήγαινε με 7 km/h. Και γέλια τα γαϊδουράκια…
    Στο κάτω κάτω και οι συγγραφείς ΔΕΝ είπαν “εμείς λέμε το σωστό”. Είπαν (περίπου) “εμείς με μία μέθοδο που αναπτύσσουμε, βγάζουμε αυτά τα αποτελέσματα”.
    Η μέθοδος μπορεί να τροποποιηθεί, αναπτυχθεί και κυρίως, να συνδυαστεί με άλλες.

    Πάντως, πολύ χάρηκα που βρήκα την συζήτησή σας. Χρησιμοποιώ προγράμματα σύγκρισης αλληλουχιών και αναρωτιέμαι – θεωρητικά – πώς μπορεί να εφαρμοστούν σε άλλα πεδία.
    (Ωχ, ποιος με σώνει τώρα! 🙂 )

    Idom

    • Kostas

      “ΝΟΜΙΖΩ, ότι ο Κώστας προσπαθούσε να σού πει ότι για το μικρό τμήμα τής πληροφορίας (δηλαδή, τις λέξεις των γλωσσών) που έλεγχε ο αλγόριθμος στο paper, τα πήγε καλά”

      Περίπου αυτό. Το θέμα είναι ότι αυτοί έχουν ένα μοντέλο διάχυσης το οποίο αλληλεπιδρά με το παραγόμενο φυλογενετικό δέντρο (χωρίς να έχω καταλάβει όμως πως ακριβώς γίνεται αυτό). Το σημείο αρχικής διασποράς δλδ εξαρτάται από την κατανομή των γλωσσών, την γεωγραφία (κάνει μόνο διαχωρισμό ξηράς/θάλασσας) και από το δέντρο το οποίο παράγεται από την σύγκριση των λιστών των λέξεων. Το συμπέρασμα τους είναι ότι το αρχικό σημείο διασποράς ήταν στην ανατολία. Οι λίστες είναι προβληματικές (εδώ συμφωνούμε και οι δύο) και το πρόβλημα αντανακλάται και στο δέντρο (και εδώ συμφωνούμε) αλλά διαφωνούμε στο πως αυτό επηρεάζει το συμπέρασμα τους. Αν δεν κατανοήσεις τον αλγόριθμο δεν πρόκειται να το καταλάβεις. Εγώ δεν τον κατανοώ και φαντάζομαι ούτε ο σμερδ και λογικά ούτε αυτοί οι δύο. Προσωπικά πιο εύκολο μου φαίνεται να επιτεθείς στην παραδοχή της απλής διάχυσης παρά στα γλωσσικά να σου πω την αλήθεια (και αν δεις το σχετικό βίντεο το κάνουν και αυτοί στα γρήγορα όμως).

      “Αν δεν δημοσιευτούν,
      α) δεν θα δώσουν ιδέες στους επόμενους”

      Ακριβώς έτσι είναι. Έτσι γίνεται η επιστήμη. Χτίζεις πάνω σε πράγματα που κάνουν οι άλλοι. Όπως είπα αυτό είναι ένα κομμάτι του παζλ μόνο. Τρέχτο με άλλες λίστες και δες πόσο robust είναι το δέντρο. Δες πως επηρεάζεται το αρχικό σημείο διασποράς όταν αλλάζει το δέντρο. Άλλαξε την παραδοχή της απλής διάχυσης. Αν τα αποτελέσματα αλλάζουν πολύ εύκολα τότε σημαίνει ότι το συμπέρασμα είναι αστήρικτο. Αλλιώς είναι ενδιαφέρον και άξιο προσοχής.

      “Στο κάτω κάτω και οι συγγραφείς ΔΕΝ είπαν “εμείς λέμε το σωστό”. Είπαν (περίπου) “εμείς με μία μέθοδο που αναπτύσσουμε, βγάζουμε αυτά τα αποτελέσματα”.”

      Έτσι είναι αλλά αν πας και διαβάσεις το πειπερ θα δεις μία κάποια αλαζονεία και υπερβολική σιγουριά. Δεν μ’ αρέσει πολύ ο τρόπος που το παρουσιάζουν. Φυσικά αυτό είναι και μέρος της κουλτούρας. Έτσι είναι πάντα. Στο abstract και το συμπέρασμα (ίσως και ενδιάμεσα) πάντα γράφεις και λίγους παπάδες… Ειδικά αν θες να δημοσιευτείς στο Nature 😛

      Γιαυτό είπα ότι το βρίσκω λίγο oversold. Παρόλα αυτά όμως αυτή η λυσσαλέα επίθεση δεν καταλαβαίνω πως δικαιολογείται. Αν δεις το ύφος τους στο βίντεο είναι απίστευτα υποτιμητικό και προσβλητικό θα έλεγα. Τους κατηγορούν κι όλας (ίσως έμμεσα) ότι έχουν ατζέντα!

      • Εγώ δεν τον κατανοώ και φαντάζομαι ούτε ο σμερδ και λογικά ούτε αυτοί οι δύο.

        Μα εννοείται βρε Κώστα πως δεν κατανοώ τον αλγόριθμό τους. Δεν έχω αφιερώσει χρόνο για να καταλάβω το πως δουλεύει το πρόγραμμα. Η γλωσσολογία με ενδιαφέρει όχι η πληροφορική. Αυτό που ξέρω είναι πως έπεσε έξω 2500 χρόνια με τα γύφτικα, 1000 χρόνια έξω με την απόσχιση της Σαρδινικής και, απ΄ότι κατάλαβα, το πρόγραμμα διάχυσης φέρνει την Ρωσική στη Ρωσία μετά το 1970 μ.Χ.

        Αν εγώ ζητήσω από μια κατασκευάτρια εταιρεία που φτιάχνει συσκευές διαγνωστικών υπερήχων ένα μηχάμημά της, δεν με ενδιαφέρει το πως ακριβώς το μηχάνημα αξιοποιεί το φαινόμενο Doppler για ροομετρία ή πως δουλεύει η ελαστογραφία. Το μόνο που με ενδιαφέρει είναι να ξέρω ότι τα νούμερα που μου δίνει το μηχάνημα έχουν αρκετά ικανοποιητική ακρίβεια για κλινική χρήση (που φυσικά στις μέρες μας έχουν ικανοποιητικότατη ακρίβεια).

        Δεν είναι δουλιά μου να ξέρω τους αλγόριθμους που χρησιμοποιεί ο υπολογιστής των υπερήχων για να μετρήσει την ταχύτητα ροής του αίματος. Ξέρω ότι χονδρικά κάνει την ίδια δουλειά που κάνει και το Doppler της τροχαίας για τα αυτοκίνητα. Αλλά φυσικά με ενδιαφέρει να ξέρω πόσο ακριβές είναι το αποτέλεσμα που μου δίνει.

    • Πιο βιώσιμο είναι να ζητάς να συνεργαστούν οι δυο τους. (Και είναι ΠΟΛΥ δύσκολο!)

      Μα αυτό λέω και εγώ και οι γλωσσολόγοι. Αλλά η μόνη συνεργασία πυο μπορεί να σου αποφέρει αποτέλεσμα είναι αυτή στην οποία οι αρχές κάθε επιστήμης δεν καταπατούνται.

      Όποιος θέλει να κάνει πρόγραμμα για την φυλογενετική ταξινόμηση των γλωσσών, το πρώτο πράγμα που πρέπει να κάνει είναι να μάθει πως ταξινομούν τις γλώσσες και πως φτιάχνουν τα δενδρογράμματά τους οι γλωσσολόγοι.

      Αν δεν σεβαστείς τις αρχές της γλωσσολογίας σε αυτό το θέμα είναι σαν να προσπαθείς να δουλέψεις σε κυκλώματα χωρίς να δέχεσαι τους κανόνες Kirchhoff.

      Αν σε ενδιαφέρει η υπολογιστική γλωσσολογία τότε σου συνιστώ να διαβάσεις το “Language Classification by Numbers” των McMahon.

      Εκεί θα δεις όλες τις αδυναμίες που έχουν δείξει τα προγράμματα ταξινόμησης, αλλά και απόπειρες από τους γλωσσολόγους που τα δουλεύουν για την εξήγηση αυτών των προβλημάτων, έτισ ώστε να υπάρχει περιθώριο βελτίωσης.

      Θα αναφέρω δύο παραδείγματα από το βιβλίο.

      Tο πρόγραμμα που χρησιμοποίησε η ομάδα του Ringe δεν μπορούσε να ταξινομήσει τον Γερμανικό κλάδο. Στα εκατομμύρια φορές που έτρεξε, το 50% περίπου των απαντήσεων ταξινομούσε τον Γερμανικό κλάδο με τον Βαλτο-Σλαβικό και το άλλο 50% με τον Ιταλο-Κελτικό. Με άλλα λόγια «τίλταρε» στον γερμανικό κλάδο. Ο Ringe έδωσε μια καλή εξήγηση λέγοντας ότι ο υπολογιστής δεν μπορούσε να ξεχωρίσει τα ισόγλωσσα «οριζόντιας επαφής» από τα ισόγλωσσα «κατακόρυφης συγγένειας». Το πρόβλημα με τον Γερμανικό κλάδο είναι πως φυλογενετικά συγγενεύει με τον Βαλτο-Σλαβικό, αλλά έχει «περπατήσει» πάνω σε Ιταλο-Κελτικό υπόστρωμα και δείχνει μεγάλη λεξιλογική σύγκλιση με τον Ιταλο-Κελτικό (μεγάλο αριθμό κοινών ριζών τα οποία είναι τα μόνα που βλέπει ένα πρόγραμμα που δουλεύει μόνο με λεξιλόγιο όπως οι λίστες Swadesh).

      Δες τα λόγια του Ringe:

      Φυσικά μπορεί να διορθωθεί το πρόγραμμα, αρκεί να κάποιος να προγραμματίσει τον υπολογιστή έτσι ώστε να μάθει να ξεχωρίζει τα δύο διαφορετικά είδη ισογλώσσων.

      Πρόβλημα #2. Κάποιοι προσπάθησαν να εμπλουτίσουν το λεξιλόγιο με φωνολογικά ισόγλωσσα (άλλο «επικίνδυνο» παράδειγμα ισογλώσσων, γιατί έχουν την τάση να διαδίδονται «οριζοντίως» και να δίνουν ψευδή εικόνα φυλογενετικής συσχέτισης) δουλεύοντας με ποικιλίες (γλώσσες/διαλέκτους αγγλικής) του Γερμανικού κλάδου.

      Το δενδρόγραμμα για το οποίο μιλάω κατέταξε την Γερμανική ως Αγγλική διάλεκτο και μάλιστα πιο συγγενική στην σημερινή Αγγλική απ΄ότι η Παλαιά Αγγλική (Old English).

      Φυσικά οι μελετητές γρήγορα βρήκαν την αιτία του σφάλματος. Ο υπολογιστής χρησιμοποίησε ως βασικό φυλογενετικό κριτήριο την ρωτικότητα. Δηλαδή χώρισε τις ποικιλίες σε ρωτικές (που προφέρουν το μεταφωνηεντικό /r/) και μη ρωτικές (που έχουν πάψει να προφέρουν το μεταφωνηνετικό /r/). Επειδή η Γερμανική έτυχε να είναι αρρωτική όπως και η σημερινή Βρετανική Αγγλική, ο υπολογιστής «κατάλαβε» πως οι δύο γλώσσες είναι περισσότερο «κοντά» φυλογενετικά απ΄ότι η σημερινή (αρρωτική) Αγγλική με την ρωτική Παλαιά Άγγλική από την οποία κατάγεται.

      http://postimg.org/image/jcywxqopl/

      Όποιος λοιπόν θέλει να εισέλθει στο χώρο της φυλογενετικής ταξινόμησης γλωσσών πρέπει πρώτα απ΄όλα να καταλάβει ποια κριτήρια οι γλωσσολόγοι θεωρούν ως βασικά για την φυλογενετική ταξινόμηση των γλωσσών και μετά, να προσπαθήσει να κάνει το πρόγραμμα του υπολογιστή να δίνει μεγαλύτερο βάρος σε αυτά. Δηλαδή πρέπει να κάνει το τον υπολογιστή να σκέφτεται όσο γίνεται περισσότερο σαν γλωσσολόγος. Αυτό νομίζω είναι το ζουμί της επιτυχίας για την Υπολογιστική Γλωσσολογία.

      Μόνο έτσι η Υπολογιστική Γλωσσολογία μπορεί να δώσει χρήσιμα αποτελέσματα. Διαφορετικά, όταν το πρόγραμμα ταΐζεται με «σκουπίδια» θα έχεις “Garbage In Garbage Out” ή, όπως είπε ο γλωσσολόγος James Matisoff για μη γλωσσολόγους που στο όνομα της Διεπιστημονικής Προσέγγισης χρησιμοποιούν κακά γλωσσολογικά δεδομένα «έχουμε δυο μεθυσμένους που δίνουν δίκαιο ο ένας στον άλλο».

      http://postimg.org/image/61pseic0h/

      Τώρα, στη συγκεκριμένη εργασία των Atkinson, Gray κλπ, οι συγγραφείς βασίζονται μόνο σε λεξιλογικά δεδομένα. Εδώ και καιρό οι γλωσσολόγοι έχουν πει ότι αυτά δεν επαρκούν για να έχεις ένα καλό δενδρόγραμμα ταξινόμησης γλωσσών.

      • Kostas

        Πρέπει να τον κατανοήσεις για να κρίνεις κατά πόσον το δέντρο επηρεάζει το αποτέλεσμα και με ποιόν τρόπο. Και πάλι η ουσία είναι το robustness.

  5. Kostas

    Α επίσης ξέχασα να πω το απλούστερο. Μπορείς λογικά να αφαιρέσεις τελείως την γλωσσολογική παράμετρο από το μοντέλο τους και να δώσεις ένα έτοιμο δέντρο (διάλεξε και πάρε ένα). Αν κάνεις αυτό το απλό πράγμα η κριτική αναγκαστικά θα εστιαζόταν στις άλλες παραδοχές. Τι θα έλεγες αν έβγαζε παρόμοια αποτελέσματα τότε? Γιατί αν έβγαζε διαφορετικά εγώ προφανώς θα έλεγα ότι το συμπέρασμα τους είναι τελείως άχρηστο.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s