Skip to content

Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα --- Ground work for a Greek Open Source LLM

License

Notifications You must be signed in to change notification settings

kiralightyagami/glossAPI

 
 

Repository files navigation

Στόχος της ΕΕΛΛΑΚ είναι η ανάπτυξη ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού του glossAPI( a Greek Open Source LLM ), που ο κώδικας του θα διατίθεται με την άδεια ανοιχτού λογισμικού EUPL και τα δεδομένα του με την άδεια Creative Commons BY-SA.

TODO: Translate documentation to English, other languages

🚀 Τρέχουσα δράση: Καταγραφή - αποτίμηση ανοιχτών πηγών κειμένου στα Ελληνικά

➡️ Συμβουλευτείτε το CONTRIBUTING.md για να συνεισφέρετε στην 🎯 συγκέντρωση και προτεραιοποίηση συνόλων κειμενικών δεδομένων στα Ελληνικά.

➡️ Επισκεφτείτε το wiki για να δείτε ή να τροποποιήσετε τις καταγεγραμμένες πηγές.

➡️ Έχετε μια ιδέα που δεν βλέπετε στο αποθετήριο; Θέλετε να προτείνετε μια διόρθωση; 🚩 Ανοίξτε ένα Issue!

🆕: Δοκιμάστε τον λεξικό κατατεμαχιστή (παράδειγμα χρήσης) και ✏️ δώστε μας ανατροφοδότηση στα Issues!

➡️ Μια εφαρμογή χρήσης εμπνευσμένη από τις ψηφιακές ανθρωπιστικές επιστήμες

➡️ Αν θέλετε να ενημερώνεστε για το glossAPI μπορείτε να εγγραφείτε στο https://newsletters.ellak.gr/

📻 Κρατήστε επαφή:

  • Matrix (#Συστηθείτε με ένα σύντομο μήνυμα.)

Καταγραφή διαθέσιμων μοντέλων στα Ελληνικά

Το έργο καταγραφής των διαθέσιμων πηγών στα ελληνικά εντάσσεται στις προσπάθειες που άμεσα ξεκίνησε η ΕΕΛΛΑΚ με την δημοσιοποίηση του ChatGPT και τη παγκόσμια άνοδο του ενδιαφέροντος για τα προηγμένα λογοπαραγωγικά νευρωνικά δίκτυα.

Προσπερνώντας διάφορες δημώδεις και παραπλανητικές επικεντρώσεις στο θέμα της τεχνητής νοημοσύνης, σαν Οργανισμός Άνοιχτών Τεχνολογικών, βλέπουμε την τεχνητή νοημοσύνη ως μια νέα τεχνολογία οργάνωσης και προσπέλασης της ανθρώπινης γνώσης, η οποία έχει μεγάλη πρακτικη αξία, για αυτό οφείλουμε από τα πρώτα ήδη στάδια να αναδείξουμε την σημασία των ανοιχτών προτύπων, των ανοιχτών και δεοντολογικά εξασφαλισμένων δεδομένων, την προστασία της ιδιωτικότητας, την πρόνοια για τα ψηφιακά χάσματα, την ασφάλεια των δεδομένων.

Σημαντικό μέρος της προσέγγισής μας έχει εστιάσει στο ενδεχόμενο υιοθέτησης των προηγμένων γλωσσικών τεχνολογικών στο πλαίσιο της ηλεκτρονικής διακυβέρνησης. Είναι άμεσα πιθανό, και δυνατό σε ένα βαθμό, οι δημόσιες υπηρεσίες να αξιοποιήσουν τις τεχνολογίες αυτές είτε για να εξυπηρετήσουν τον πολίτη μέσω ψηφιακών βοηθών είτε να διεκπεραιώσουν εσωτερικές τους διεργασίες που ειδάλλως θα απαιτούσαν μεγάλη ανθρωποπροσπάθεια.

Για αυτό είναι αποπροσανατολιστικές οι δημώδεις συζητήσεις για υπαρξιακή απειλή της ανθρωπότητας και τον υπερανθρωπισμό. Υπάρχουν άμεσα ζητήματα πολύ πιο πρακτικής φύσεως, με άμεσο κοινωνικό αντίκτυπο, τα οποία είναι καλύτερο να συζητάμε αυτή τη στιγμή. Όπως επίσης μεγάλος θα είναι ο αντίκτυπος στις εργασιακές σχέσεις (βλ Άρθρο μας για την απεργία των σεναριογράφων στο Χόλυγουντ, και τις διεκδικήσεις τους για οριοθέητηση της ΤΝ στο αντικείμενο της εργασίας τους).

Ας σταθούμε προς στιγμήν σε αυτά τα θέματα: Λογοπαραγωγική τεχνολογία στο δημόσιο τομέα, στην εξυπηρέτηση του πολίτη, στις εσωτερικές διεργασίες της ηλεκτρονικής διακυβέρνησης. Εισαγωγή της λογοπαραγωγικής τεχνολογίας στις εργασιακές σχέσεις. Καθίσταται αμέσως σαφές, ότι η απουσία ενός ικανού μοντέλου στην ελληνική γλώσσα αποτελεί ορατό κίνδυνο επίτασης των ψηφιακών χασμάτων τόσο στην σχέση πολίτη-κράτους, όσο και στην προσπάθεια για την εύρεση εργασίας.

Όσο καινοτόμος, ωστόσο, και αν είναι, η τεχνολογία των λογοπαραγωγικών νευρωνικών δικτύων, δεν παύει να αποτελεί προέκταση των προηγούμενων τεχνολογικών μας και ειδικά των τεχνικών υπολογιστικής επεξεργασίας του λόγου, την μηχανική μάθηση, τα δεδομένα μεγάλου όγκου. Από αυτές τις τεχνολογίες δεν κληρονομούν μόνο τα πλεονεκτήματα αλλά και τους κινδύνους, ειδικά σε ένα νομικό περιβάλλον προστατευτισμού των τεχνολογικών ολιγοπωλίων, που απασχολούν την κοινότητα των ανοιχτών τεχνολογιών εδώ και αρκετά χρόνια.

Δυστυχώς η ετοιμότητα της ελληνικής γλώσσας να εισαχθεί δυναμικά σε αυτές τις νέες τεχνολογίες είναι αποδυναμωμένη από πολιτικές και στρατηγικές επιλογές που εκτείνονται αρκετές δεκαετίες στο παρελθόν. Ήδη διαμορφώνονται ελληνικά LLM's κλειστού κώδικά από όσες δομές διαθέτουν υψηλής ποιότητας δεδομένα για την εκπαίδευσή τους. Η κοινότητά μας όμως παραμένει φτωχή σε δεδομένα, για αυτό επιμένουμε ότι η δημιουργία ανοιχτού, δεοντολογικά αποκτημένου, μηχανικά προσπελάσιμου, και αντιπροσωπευτικού της ελληνικής γλώσσας σώματος παραδειγμάτων εκπαίδευσης, παραμένει και θα παραμείνει αυτοσκοπός για την κοινότητα του ανοιχτού λογισμικού.

Οι προσπάθειές μας οδηγήθηκαν λοιπόν ακριβώς σε αυτό: την αποδελτίωση και καταγραφή των διαθέσιμων πηγών στα ελληνικά με άδεια επανάχρησης. Υπάρχει όμως ένα παράδοξο σε αυτό: Όσα δεδομένα είναι εύκολα προσβάσιμα, βρίσκονται ήδη σε μηχανικά αναγνώσιμη μορφή, ή είναι επισημειωμένα με κάποιον τρόπο, σίγουρα θα έχουν ήδη βρεί το δρόμο τους προς τα υπάρχοντα γλωσσικά μοντέλα.

Τα περισσότερα δεδομένα υψηλής γλωσσικής αξίας για την ιστορικότητα και την ποικιλία της ελληνικής γλώσσας, που αντανακλούν και τις διάφορα κειμενικά είδη και ποικιλίες χρήσης της, είναι σε ένα βαθμό ψηφιοποιημένα, αλλά στην πλειοψηφία των περιπτώσεων όχι μηχανικά προσπελάσιμα, είτε λόγω εχθρικής προς το χρήστη δόμηση της πλοήγησης της ιστοσελίδας, είτε επειδή απουσιάζει η οπτική αναγνώριση χαρακτήρων, είτε επειδή δεν υπάρχουν άδειες επανάχρησης.

Που οδεύουμε, λοιπόν; Τα δεδομένα του προβλήματος είναι σαφή. Τα εύκολα προσβάσιμα δεδομένα έχουν αξιοποηθεί ήδη. Τα δύσκολα προσβάσιμα δεδομένα περιλαμβάνουν ένα δυσνόητο μέγεθος ανθρωποπροσπάθειας. Τα κλειστά δεδομένα είναι και θα παραμείνουν κλειστά. Είναι σχεδόν βέβαιο ότι σύντομα θα δούμε ένα κλειστό γλωσσικό μοντέλο στην ελληνική γλώσσα. Αλλά αυτό δεν θα αλλάξει σε τίποτα την δυστοπική διαπίστωση ότι οι ανοιχτές τεχνολογίες θα δεχτούν ένα πρωτόγνωρο πλήγμα. Η κύρια τεχνολογία της εποχής που έρχεται θα έχει ξεκινήσει με ένα αποφασιστικό πλεονέκτημα των κλειστών τεχνολογιών και των κλειστών δεδομένων. Πέρα από τις ακτιβιστικές μας ανησυχίες όμως, οι δυσμενείς επιπτώσεις έχουν επισημανθεί και από τις διεθνείς οργανώσεις, καθώς και από την Ευρωπαϊκή Επιτροπή.

Η ιδέα ότι τα δεδομένα των πολιτών ενός ολόκληρου κράτους μπορούν να μεταφορτωθούν στους απομακρυσμένους υπολογιστές ενός υπερατλαντικού τεχνολογικού ολιγοπωλίου, με όλους τους κινδύνους ασφάλειας και ιδιωτικότητας, είναι απλά επικίνδυνη, και αντίθετη σε μια σειρά από ευρωπαϊκές οδηγίες στις οποίες έχει δεσμευτεί η Ελλάδα. Η εύκολη λύση της προμήθειας λογοπαραγωγικής τεχνολογίας από τεχνολογικά ολογοπώλια του εξωτερικού είναι ένα ναρκοπέδιο για την ασφάλεια, την ιδιωτικότητα, την καινοτομία, και οι επιπτώσεις του θα φανούν σύντομα.

📰 Διαβάστε την αρθρογραφία μας για τα γλωσσικά μοντέλα και τις διεθνείς εξελίξεις

Νευρωνικά Δίκτυα και Μηχανική Μάθηση

Ανοιχτός Κώδικας και Προηγμένα Γλωσσικά Νευρωνικά Δίκτυα

Τί ξέρουμε για τις ραγδαίες εξελίξεις στην OpenAI...

Φιλοσοφικές προεκτάσεις νευρωνικών δικτύων

Τεχνητή νοημοσύνη και το μέλλον της εργασίας

About

Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα --- Ground work for a Greek Open Source LLM

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 54.5%
  • Python 41.4%
  • C 4.1%