ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Ολοκληρώθηκαν με επιτυχία τα 10 έργα του Οργανισμού Ανοιχτών Τεχνολογιών στο Google Summer of Code 2018

Στις 21 Αυγούστου 2018 ολοκληρώθηκε η τρίτη και τελευταία αξιολόγηση των έργων που συμμετέχουν στο Google Summer Of Code 2018  στην οποία αξιολογήθηκαν με επιτυχία  και τα 10 έργα με τα οποία συμμετείχε ο Οργανισμός Ανοιχτών Τεχνολογιών (ΕΕΛΛΑΚ).

To GSoC προσφέρει κάθε χρόνο σε φοιτητές από όλο τον κόσμο την ευκαιρία να συμβάλουν σε ένα έργο ανοιχτού κώδικα, και να μάθουν πώς είναι να εργάζονται σε ένα περιβάλλον ανάπτυξης λογισμικού. Κάθε καλοκαίρι συμμετέχουν στο GSoC εκατοντάδες φοιτητές από όλο τον κόσμο συμβάλλοντας στην ανάπτυξη έργων ανοιχτού λογισμικού.

Στο Google Summer of Code του 2018 του συμμετείχαν 212 οργανισμοί, από 62 χώρες με 1264 φοιτητές σε ισάριθμα έργα ανοιχτού κώδικα. Ο Οργανισμός Ανοιχτών Τεχνολογιών (ΕΕΛΛΑΚ, edev.ellak.gr) συμμετείχε για δεύτερη συνεχόμενη χρονιά με 10 έργα ανοιχτού κώδικα που υλοποιήθηκαν με επιτυχία από δέκα φοιτητές με τη καθοδήγηση 23 μεντόρων.

Τα 10 έργα ανοιχτού κώδικα του Οργανισμού Ανοιχτών Τεχνολογιών, τα οποία αναπτύχθηκαν στο πλαίσιο του Google Summer of Code 2018 είναι τα εξής:

  1. Υποστήριξη ελληνικών χαρακτήρων στην οικογένεια γραμματοσειρών Arima Madurai.  Το έργο προσθέτει υποστήριξη ελληνικών χαρακτήρων στην οικογένεια γραμματοσειρών του Google Font Arima Madurai.  Στα πλαίσιο του GSOC σχεδιάστηκαν ελληνικές γραμματοσειρές για όλα τα βάρη της οικογένειας Arima Madurai. Η ενσωμάτωση των ελληνικών χαρακτήρων στη γραμματοσειρά Arima Madurai προβλέπεται να γίνει μέσα στους επόμενους 3 μήνες. Μπορείτε να διαβάσετε περισσότερα για την ελληνική υποστήριξη στην γραμματοσειρά Arima Madurai εδώ.

  1. Υποστήριξη ελληνικών χαρακτήρων στην οικογένεια γραμματοσειρών Cantarell Το έργο προσθέτει υποστήριξη ελληνικών χαρακτήρων στην οικογένεια γραμματοσειρών του Google Font Cantarell.  Στα πλαίσιο του GSOC σχεδιάστηκαν ελληνικές γραμματοσειρές και για όλα τα βάρη της οικογένειας Cantarell. Η ενσωμάτωση των ελληνικών χαρακτήρων στη γραμματοσειρά Cantarell προβλέπεται να γίνει μέσα στους επόμενους 3 μήνες. Μπορείτε να διαβάσετε περισσότερα για την ελληνική υποστήριξη στην γραμματοσειρά Cantarell εδώ.

  1. Προσθήκη ελληνικής υποστήριξης στην βιβλιοθήκη NLP του Spacy.io.  Το Spacy είναι μια βιβλιοθήκη Python ανοιχτού κώδικα για προηγμένη επεξεργασία φυσικής γλώσσας. Η προσθήκη της ελληνικής γλώσσας προσφέρει τεράστιες βελτιώσεις στην εφαρμογή NLP και επιτρέπει την ανάληψη ενεργειών Named entity recognition και  Part-of-speech tagging. Ο κώδικας που δημιουργήθηκε στα πλαίσια του GSoC 2018 έχει ήδη ενσωματωθεί στην βιβλιοθήκη και μπορείτε να τον δείτε σε πειραματική λειτουργία στο https://nlpbuddy.io.  Πέρα από τη δουλειά που έγινε στο πλαίσιο του GSoC, το έργο μπορεί να εμπλουτιστεί προσθέτοντας περισσότερους κανόνες για την υποστήριξη της ελληνικής γλώσσας, βελτιστοποιώντας την ακρίβεια των μοντέλων κλπ.

  1. Εξαγωγή αρμοδιοτήτων ανά μονάδα σε οργανισμούς του δημόσιου τομέα από την Εφημερίδα της Κυβέρνησης. Στόχος του έργου αυτού ήταν η επέκταση του υφιστάμενου κώδικα εξόρυξης κειμένων από την Εφημερίδα της Κυβερνήσεως, με χαρακτηριστικά Named Entity Recognition που θα επιτρέπουν τον προσδιορισμό των διοικητικών μονάδων του δημοσίου τομέα, διευθύνσεων και των τμημάτων με τις αρμοδιότητες που τους ανατίθενται και τους τύπους υπηρεσιών που πρέπει να παρέχουν σύμφωνα με το θεσμικό τους πλαίσιο.  Πέρα από τη δουλειά που έγινε στα πλαίσια του GSoC 2018, υπάρχουν πάντα επιπλέον επεκτάσεις που μπορούν να γίνουν όπως προσθήκη υποστήριξης βάσης δεδομένων, δημιουργία ενός αυτόματου συστήματος ανίχνευσης κ.λ.π.

  1. WSO2 Identity Server Userstore. Ο  WSO2  Identity Server, παρέχει ασφαλή διαχείριση ταυτότητας για εφαρμογές, υπηρεσίες και API εταιρικού δικτύου, και διαχειρίζεται την ταυτότητα και τα δικαιώματα των χρηστών με ασφάλεια και αποτελεσματικότητα. Ο στόχος αυτού του έργου ήταν να δημιουργηθεί ένας νέος τύπος Userstore, όπου τα διαπιστευτήρια θα διαχειρίζονται από τα attributes και τα χαρακτηριστικά (αξιώσεις) θα μπορούσαν να διαμορφωθούν από το web UI ως υπηρεσία SOAP ή REST.

  1. Αυτόματη κωδικοποίηση της ελληνικής νομοθεσίας.  Αυτό το έργο είχε ως στόχο την επέκταση του υφιστάμενου κώδικα εξόρυξης κειμένων από τα ΦΕΚ, με την εφαρμογή χαρακτηριστικών για την οργάνωση και τη διασταύρωση των κειμένων ΦΕΚ με νομικά κείμενα και την ανίχνευση των υπογραφόντων μέσω μεθόδων ευρετικής και μηχανικής μάθησης. Αυτό επιτρέπει την εξάλειψη των γραφειοκρατικών διαδικασιών και την τεράστια εξοικονόμηση χρόνου για τους νομικούς που αναζητούν νομικά έγγραφα σε διάφορες βάσεις δεδομένων. Η δουλειά που έγινε στο πλαίσιο του GSOC υπάρχει διαθέσιμη σε πειραματική λειτουργία στο  https://3gm.dev.ellak.gr/.  Αν κάποιος θέλει να συνεισφέρει στο έργο θα μπορούσε να ψηφιοποιήσει παλαιότερα έγγραφα (πριν του 1999), να συμβάλει στην εκπαίδευση στατικών μοντέλων με προσαρμοσμένα tag maps κλπ.

  2. Συνέχιση της ανάπτυξης του Epoptes.  Ο Epoptes είναι εφαρμογή διαχείρισης τάξης που χρησιμοποιείται από εκατοντάδες σχολικά εργαστήρια στην Ελλάδα και διεθνώς. Σκοπός του έργου ήταν να προστεθεί υποστήριξη για Python 3  και Gtk3. Η ενσωμάτωση του κώδικα που δημιουργήθηκε στα πλαίσια του GSoC 2018 έγινε επιτυχώς και σύντομα θα ενσωματωθεί στην επόμενη έκδοση του http://www.epoptes.org . Μπορείτε να διαβάσετε περισσότερα για την αναβάθμιση του Επόπτη εδώ.

  1. Δημιουργία νομικών templates για το LibreOffice και προσαρμογή του LibreOffice.  Το έργο είχε ως στόχο την προσαρμογή της επιφάνειας χρήσης του LibreOffice 6.0 και τη δημιουργία νομικών προτύπων (templates) για την εύκολη χρήση του Libreoffice από νομικούς και υπαλλήλους δικαστηρίων.  Στο πλαίσιο του έργου δημιουργήθηκαν πρόσθετα για το Libreoffice και το OpenOffice που:

Απλοποιούν την, εξαιρετικά σύνθετη για τον νέο χρήστη,εισαγωγή αρίθμησης σελίδων,

Επιτρέπουν τη χρήση αυτόματων κειμένων παράλληλα με την επεξεργασία του εγγράφου (μέχρι τώρα αυτό δεν ήταν δυνατό),

Επιτρέπουν την αυτόματης εισαγωγή του κειμένου ενός νόμου βάσει του αύξοντα αριθμού του &

Παραμετροποιούν της διεπαφή (εικονίδια, γραμμή εργαλείων και μενού) ώστε να επιτυγχάνεται όμοια λειτουργικότητα μενού με το κειμενογράφο του Word  της Microsoft.

  1. Python PenTest Library (PyPen).  Ανάπτυξη βιβλιοθήκης Python για Penetration Testing. Η βιβλιοθήκη περιλαμβάνει ένα σύνολο εργαλείων για την εκτέλεση των βασικών εργασιών για δοκιμές διείσδυσης σε έναν απομακρυσμένο υπολογιστή.

  1. Clio — Software Components and IP Management System.  Στόχος του έργου ήταν η δημιουργία μιας web based εφαρμογής  για τη διαχείριση δεδομένων σχετικά με τα στοιχεία λογισμικού και τις σχέσεις τους. Η εφαρμογή που δημιουργήθηκε στο πλαίσιο του GSoC 2018 είναι διαθέσιμη σε πιλοτική λειτουργία στο https://clio.dev.ellak.gr/

Ο πηγαίος κώδικας όλων των έργων που αναπτύχθηκαν κατά την διάρκεια του GSoC, είναι ελεύθερα διαθέσιμος σε όλους για βελτιώσεις και επανάχρηση στο github και ο Οργανισμός Ανοιχτών Τεχνολογιών θα επιδιώξει την συνέχιση και την αξιοποίηση και των 10 έργων από κοινότητες ανοιχτού λογισμικού.

Ο Οργανισμός Ανοιχτών Τεχνολογιών( ΕΕΛΛΑΚ ), θα συμμετέχει στο GSoC και το 2019 με προτάσεις για έργα ανοιχτού λογισμικού. Οι προτάσεις θα διαμορφωθούν με ανοιχτή πρόσκληση σε συνεργασία με όλα τα σχετικά τμήματα των Ακαδημαϊκών-Ερευνητικών Ιδρυμάτων, φορείς του δημοσίου τομέα και εταιρείες που αναπτύσσουν ή/και χρησιμοποιούν ανοιχτό λογισμικό. Η πρόσκληση θα αφορά προτάσεις για έργα και μέλη της ακαδημαϊκής-ερευνητικής κοινότητας που θα ήθελαν να αναλάβουν ως μέντορες των φοιτητών που θα αναλάβουν να υλοποιήσουν τα προτεινόμενα έργα.

2 thoughts on “Ολοκληρώθηκαν με επιτυχία τα 10 έργα του Οργανισμού Ανοιχτών Τεχνολογιών στο Google Summer of Code 2018

  1. Η Προσθήκη ελληνικής υποστήριξης στην βιβλιοθήκη NLP του Spacy.io δεν φαίνεται πολύ καλή. Τα Ελληνικά, οι λατινικές γλώσσες και οι σλαβικές γλώσσες δεν είναι σαν τα αγγλικά ή τα ιαπωνικά όπου ο ορισμός μιας λέξης καθορίζει το μέρος του λόγου, πχ τα αγγλικά ουσιαστικά χωρίζονται με βάση τον αριθμό(ενικός, πληθυντικός) και τα ρήματα χωρίζονται σε 3 μονολεκτικούς χρόνους.
    Η αναγνώριση του μέρους του λόγου στα ελληνικά μπορεί να γίνει με μία αναζήτηση στο wiktionary, αλλά η εξαγωγή τον χαρακτηριστικών του μέρους του λόγου(πτώση, αριθμός, γένος, φωνή, χρόνος, πρόσωπο) θέλει πολύ δουλειά ιδιαίτερα στα ρήματα. Η lexigram έχει κάνει καλή δουλειά αλλά δεν είναι ανοιχτό λογισμικό, δεν προχώρησαν στο NLP-Wordnet-Machine Learning, μάλλον χρεοκόπησαν, σαν την Magenta.

  2. Τα περισσότερα απο τα χαρακτηριστικά που αναφέρεις έχω την εντύπωση οτι δεν υποστηρίζονται/υλοποιούνται απο το spaCy, οπότε θα χρειαστεί να γίνει έξτρα δουλειά για την υποστήριξη τους – σαν επιπλέον POS tags πχ. Έχουμε πλεον εικόνα πώς μπορεί να γίνει αυτό στο spaCy και ποιά άλλα μέρη χρειάζονται βελτιώσεις, πάντως πιστεύω οτι ήδη παίζουν σε αρκετά καλό βαθμό τα περισσότερα απο τα μέρη που χρησιμοποιούνται σε ένα spaCy pipeline, όπως sentence splitting/tokenization/lemmatization/POS tagging/ dependency parsing/named entity recognition.

    Η επίσημη ανακοίνωση της υποστήριξης των ελληνικών – και η προσθήκη της γλώσσας στην κεντρική σελίδα- δεν έχει γίνει ακόμα απο το spaCy γιατί υπάρχει ένα πρόβλημα με την παραγωγή των μοντέλων. Όταν αυτό λυθεί -σίγουρα μέσα στις επόμενες μέρες- και βγει η νεα stable έκδοση, θα περιλαμβάνει και βελτιώσεις που έχουν γίνει merge αλλά δεν περιέχονται στην τρέχουσα stable έκδοση, οπότε έχει νόημα να κάνεις update αν δοκίμασες την τρέχουσα έκδοση

    Το spaCy χρησιμοποιεί νευρωνικά δίκτυα για τα κομμάτια του tagging/parsing/NER και για να γίνει βελτίωση σε αυτά χρειάζεται datasets με labeled data – τα οποία μάλιστα data να είναι όσο πιο ‘αντιπροσωπευτικά’ γίνεται και να καλύπτουν διαφορετικές περιπτώσεις, έτσι ώστε το μοντέλο να μην εκπαιδεύεται συνέχεια στα ίδια patterns. Στο κομμάτι του POS/DEP έγινε χρήση του dataset https://github.com/UniversalDependencies/UD_Greek-GDT το οποίο είναι το μοναδικό αντίστοιχο dataset που υπάρχει στα ελληνικά (τουλάχιστον το μοναδικό που βρήκαμε) και σε σχέση με το αντίστοιχο στα αγγλικά θεωρείται οτι έχει μικρό αριθμό προτάσεων. Για το NER δεν βρήκαμε κάτι και δημιουργήσαμε ένα dataset το οποίο διαθέτουμε στο https://github.com/eellak/gsoc2018-spacy/tree/dev/spacy/lang/el/training/datasets/annotated_data – αυτό έγινε label με χρήση του εργαλείου https://prodi.gy και είναι πλεον ελεύθερο για χρήση και για άλλα projects. Στα πλάνα μας για το μέλλον είναι η παραγωγή ενός μεγαλυτερου dataset σαν το UD_Greek – υπόψιν οτι η επιλογή των κειμένων που θα γίνει το labeling αλλά κυρίως η παραγωγή των labels αυτών είναι ιδιαίτερα επίπονες διαδικασίες.

Leave a Comment