ΣχηματισμόςΚολέγια και πανεπιστήμια

Τι είναι το Corpus Linguistics;

Μόλις πριν από μερικές δεκαετίες για την αυτοματοποίηση της γλωσσικής έρευνας, οι επιστήμονες θα μπορούσαν μόνο να ονειρευτούν. Το έργο έγινε με το χέρι, προσελκύει μεγάλο αριθμό φοιτητών, υπάρχει μια σημαντική πιθανότητα «απρόσεκτη» λάθη, και το σημαντικότερο - όλα αυτά πήρε μια πολύ, πολύ καιρό.

Με την ανάπτυξη της τεχνολογίας των υπολογιστών έχει γίνει δυνατή η διεξαγωγή έρευνας σχετικά με την τάξη μεγέθους πιο γρήγορα, και σήμερα μια από τις πιο πολλά υποσχόμενες κατευθύνσεις στη μελέτη της γλώσσας είναι ένα corpus γλωσσολογία. Κύριο χαρακτηριστικό του είναι η χρήση μεγάλων ποσοτήτων πληροφοριών κειμένου, πληροφοριών σε μια ενιαία βάση δεδομένων, με έναν ειδικό τρόπο και κάλεσε την έντονη σώματος.

Μέχρι σήμερα, υπάρχουν πολλά κτίρια που δημιουργήθηκαν με διαφορετικούς σκοπούς με βάση διάφορα γλωσσικού υλικού που εκτείνονται από εκατομμύρια σε δεκάδες δισεκατομμύρια λεκτικές μονάδες. Αυτή η κατεύθυνση είναι αναγνωρισμένη ως μια πολλά υποσχόμενη και επιδεικνύει σημαντική πρόοδο προς τους σκοπούς της εφαρμογής και της έρευνας. Οι ειδικοί, το ένα ή τον άλλο τρόπο ασχολούνται με την φυσική γλώσσα, συνιστάται να εξοικειωθούν με το σώμα κειμένων, τουλάχιστον σε βασικό επίπεδο.

Ιστορία του corpus γλωσσολογίας

Ο σχηματισμός αυτής της τάσης οφείλεται στη δημιουργία των Ηνωμένων Πολιτειών της Brown σώμα στις αρχές του 60-ες του περασμένου αιώνα. Η συλλογή περιλαμβάνει τα κείμενα όλων των 1 εκατομμύριο μορφές λέξη, και σήμερα το σώμα αυτού του μεγέθους θα ήταν εντελώς μη ανταγωνιστική. Αυτό οφείλεται στο ρυθμό της ανάπτυξης της τεχνολογίας των υπολογιστών, καθώς και οι αυξανόμενες απαιτήσεις των νέων ερευνητικών πόρων σε μεγάλο βαθμό.

Στη δεκαετία του '90 corpus γλωσσολογία αναδειχθεί σε μια πλήρη και ανεξάρτητη πειθαρχία, μια συλλογή κειμένων που έχουν συνταχθεί και σήμανση για δεκάδες γλώσσες. Κατά την περίοδο αυτή δημιουργήθηκε, για παράδειγμα, οι Βρετανοί Εθνικός Θησαυρός 100 εκατομμύρια μάρκες.

Με την ανάπτυξη αυτού του τομέα της γλωσσολογίας, οι όγκοι κείμενο όλο και περισσότερο (και να φτάσει δισεκατομμύρια λεξικό μονάδες), και η διάταξη γίνεται όλο και πιο ποικιλόμορφη. Μέχρι σήμερα, ο χώρος του Διαδικτύου μπορεί να βρεθεί πτώματα γραπτό και προφορικό λόγο, πολύγλωσσο, και η μάθηση προσανατολισμένη καλλιτεχνική και ακαδημαϊκή βιβλιογραφία, καθώς και πολλά άλλα είδη.

Τι είναι το περίβλημα

μπορεί να παρέχεται τύποι αμαξώματος στις γλωσσολογία σώμα για πολλούς λόγους. Διαισθητικά, η βάση για την ταξινόμηση μπορεί να είναι μια γλώσσα κειμένου (ρωσικά, γερμανικά), ο τρόπος πρόσβασης (open source, κλειστά, εμπορική), το είδος του υλικού πηγής (μυθοπλασία, ντοκιμαντέρ, ακαδημαϊκά, τη δημοσιογραφία).

Ενδιαφέρουσες τρόπο παράγει υλικά της ομιλούμενης γλώσσας. Δεδομένου ότι η εσκεμμένη καταγραφή των εν λόγω ομιλία για να δημιουργήσει ένα τεχνητό περιβάλλον για τους ερωτηθέντες, και το υλικό που προκύπτει δεν θα μπορούσε να ονομαστεί «αυθόρμητη», η σύγχρονη σώματος γλωσσολογία έχει περάσει τον άλλο τρόπο. Ένας εθελοντής είναι εξοπλισμένο με ένα μικρόφωνο, και κατά τη διάρκεια της ημέρας παρήγαγε ένα αρχείο όλων των συνομιλιών, στις οποίες συμμετέχει. Οι άνθρωποι γύρω, βέβαια, μπορεί να μην γνωρίζουν ότι κατά τη διάρκεια της καθημερινής συνομιλίας συμβάλλει στην ανάπτυξη της επιστήμης.

Αργότερα έλαβε ρεκόρ αποθηκεύονται στη βάση δεδομένων και συνοδεύονται από τυπωμένο τύπο μεταγραφή κειμένου. Έτσι, καθίσταται δυνατή η σήμανση που απαιτείται για τη δημιουργία ενός από του στόματος ημερήσια κατοικιών ομιλία.

εφαρμογή

Όπου είναι δυνατόν, η χρήση της γλώσσας, και ίσως η χρήση των κτιρίων κειμένων. Μέθοδοι για την εφαρμογή της γάστρας στη γλωσσολογία μπορεί να είναι:

  • Η δημιουργία ενός προγράμματος προσδιορισμό το κλειδί, χρησιμοποιείται ευρέως στην πολιτική και τις επιχειρήσεις για να παρακολουθείτε τις θετικές και αρνητικές αντιδράσεις των ψηφοφόρων και τους πελάτες, αντίστοιχα.
  • Σύνδεση του συστήματος πληροφοριών σε λεξικά και μεταφραστές για να βελτιώσουν τις επιδόσεις τους.
  • Μια ποικιλία των ερευνητικών εργασιών που συμβάλλουν στην κατανόηση της μονάδας γλώσσα, την ιστορία της ανάπτυξης και της πρόβλεψης της αλλαγές στο εγγύς μέλλον.
  • Ανάπτυξη των συστημάτων ανάκτησης πληροφοριών με βάση τα μορφολογικά, συντακτικά, σημασιολογικά και άλλα χαρακτηριστικά.
  • Βελτιστοποίηση των διαφορετικών γλωσσικών συστημάτων και άλλοι.

Η χρήση των κτιρίων

παρόμοια διασύνδεση των πόρων με μια τυπική μηχανή αναζήτησης, και ζητά από το χρήστη να εισάγει μια λέξη ή συνδυασμό λέξεων για να αναζητήσετε τη βάση πληροφοριών. Εκτός απο το ακριβές ερώτημα μπορεί να χρησιμοποιήσει τη βελτιωμένη έκδοση, η οποία σας επιτρέπει να βρείτε πληροφορίες κειμένου σε σχεδόν οποιαδήποτε γλωσσική κριτήρια.

βάση αναζήτησης μπορεί να είναι:

  • των μελών μιας συγκεκριμένης ομάδας των μερών του λόγου?
  • γραμματικά χαρακτηριστικά?
  • σημασιολογία?
  • υφολογική και συναισθηματική χρωματισμό.

Μπορείτε επίσης να συνδυάσετε κριτήρια για μια ακολουθία λέξεων, για παράδειγμα, για να βρείτε όλες τις εμφανίσεις του ρήματος στον ενεστώτα, πρώτο ενικό πρόσωπο, το οποίο έρχεται μετά την πρόθεση «σε» και το ουσιαστικό στην αιτιατική. Η λύση σε μια τέτοια απλή εργασία οδηγεί το χρήστη λίγα δευτερόλεπτα και απαιτεί μόνο μερικά κλικ του ποντικιού σε συγκεκριμένα πεδία.

Η διαδικασία δημιουργίας

Η ίδια η αναζήτηση μπορεί να πραγματοποιηθεί σε όλα τα subcorpus και ένα επιλεγεί ειδικά, ανάλογα με τις ανάγκες για την επίτευξη ενός συγκεκριμένου στόχου:

  1. Το πρώτο βήμα είναι να καθορίσει ποια κείμενα αποτελούν τη βάση για την υπόθεση. Για πρακτικούς λόγους, συχνά χρησιμοποιείται δημοσιογραφικό, ειδήσεις, σε απευθείας σύνδεση σχόλια. Το ερευνητικό έργο είναι η χρήση μιας ευρείας ποικιλίας των ειδών συσκευασίας, αλλά το κείμενο θα πρέπει να επιλέγεται σύμφωνα με κάποιο κοινό έδαφος.
  2. Η προκύπτουσα συλλογή κειμένων υποβάλλονται σε προεπεξεργασία, υπάρχει διόρθωση των λαθών, αν υπάρχουν, που παρασκευάζεται από βιβλιογραφικές και εξω-γλωσσική περιγραφή του κειμένου.
  3. Εξαλείφεται κάθε μη κειμενικό πληροφορίες: Καθαρίζει τα γραφικά, φωτογραφίες, πίνακες.
  4. Είναι η κατανομή των μαρκών, τα οποία είναι συνήθως ομιλία, για περαιτέρω επεξεργασία.
  5. Τέλος, διενεργείται μορφολογικές, συντακτικά και για άλλα σήματα που λαμβάνονται πλήθος στοιχείων.

Το αποτέλεσμα του συνόλου των συναλλαγών που πραγματοποιούνται από μια συντακτική δομή με κατανεμημένα εντός αυτού ένα πλήθος στοιχείων, καθένα από τα οποία προσδιορίζεται το μέρος του λόγου, γραμματικές και, σε ορισμένες περιπτώσεις, τα σημασιολογική χαρακτηριστικά.

Δυσκολίες στη δημιουργία κτιρίων

Είναι σημαντικό να καταλάβουμε ότι δεν είναι αρκετό για να βάλει μαζί μια σειρά από λέξεις ή φράσεις για το σώμα. Από τη μία πλευρά, μια συλλογή από κείμενα πρέπει να είναι ισορροπημένη, δηλαδή, αντιπροσωπεύουν διαφορετικά είδη κειμένων σε ορισμένες αναλογίες. Από την άλλη - το περιεχόμενο του περιβλήματος θα πρέπει να απέχουν με έναν ιδιαίτερο τρόπο.

Το πρώτο πρόβλημα έχει λυθεί με συμφωνία: για παράδειγμα, στη συλλογή περιλαμβάνει 60% των λογοτεχνικών κειμένων, το 20% των ντοκιμαντέρ, ένα ορισμένο ποσοστό δίνεται γραπτή αναπαράσταση των ομιλούμενη γλώσσα, τη νομοθεσία, τις μελέτες και ούτω καθεξής Δ Η τέλεια συνταγή ισορροπημένο σώμα δεν υπάρχει σήμερα..

Το δεύτερο ερώτημα, σχετικά με τη διάταξη περιεχομένου, επίλυση προκλητική. Υπάρχουν ειδικά προγράμματα και αλγόριθμοι που χρησιμοποιούνται για την αυτόματη σήμανση των κειμένων, αλλά δεν δίνουν ένα τέλειο αποτέλεσμα, μπορεί να προκαλέσει διαταραχές και απαιτούν χειροκίνητη επαναλάβει. Οι ευκαιρίες και οι προκλήσεις για την αντιμετώπιση αυτού του προβλήματος περιγράφονται λεπτομερώς σε ένα χαρτί V. Ρ Zaharova της γλωσσολογίας σωμάτων.

σήμανσης Κείμενο υλοποιείται σε διάφορα επίπεδα, τα οποία παραθέτουμε παρακάτω.

μορφολογικά ετικέτες

Από το σχολείο, θυμόμαστε ότι στη ρωσική γλώσσα, υπάρχουν διαφορετικά μέρη του λόγου, και το καθένα από αυτά έχει τα δικά της χαρακτηριστικά. Για παράδειγμα, το ρήμα έχει κατηγορίες κλίσης και τον χρόνο κατά τον οποίο δεν ουσιαστικό. ένας φυσικός ομιλητής χωρίς δισταγμό μειώνεται ουσιαστικά και συζευγμένο ρήματα, αλλά να σηματοδοτήσει το σώμα των 100 εκατομμυρίων. μάρκες χειρωνακτική εργασία δεν θα λειτουργήσει. Όλες οι εργασίες μπορεί να εκτελέσει τον υπολογιστή, όμως, γι 'αυτό πρέπει να διδάσκεται.

Μορφολογικά tagging, ο υπολογιστής πρέπει κάθε λέξη ως ένα ορισμένο μέρος της ομιλίας που έχουν ορισμένα γραμματικά χαρακτηριστικά «καταλάβει». Δεδομένου ότι η ρωσική (και σε οποιαδήποτε άλλη γλώσσα) λειτουργεί μια σειρά τακτικών κανόνες, είναι δυνατό να οικοδομήσουμε μια αυτόματη διαδικασία για τη μορφολογική ανάλυση, επενδύοντας στο αυτοκίνητο για μια σειρά αλγορίθμων. Ωστόσο, υπάρχουν και εξαιρέσεις στον κανόνα, καθώς και διάφορες πολύπλοκες παράγοντες. Ως αποτέλεσμα, καθαρή ανάλυση με υπολογιστή του σήμερα είναι πολύ από το ιδανικό, και ακόμη 4% σφάλμα αποδίδει μια τιμή των 4 εκατ. Λέξεις στο σώμα των 100 εκατομμυρίων. Μονάδες, απαιτώντας εγχειρίδιο επεξεργασθεί εκ νέου.

Λεπτομερής βιβλίο περιγράφει το πρόβλημα Zaharova Β Π «Corpus Linguistics».

συντακτική σχολιασμό

Την ανάλυση ή την ανάλυση - μια διαδικασία που καθορίζει τη σχέση των λέξεων σε μια πρόταση. Χρησιμοποιώντας ένα σύνολο αλγορίθμων είναι δυνατόν να προσδιοριστεί το κείμενο του θέματος, κατηγόρημα, προσθήκες, πολλαπλές στροφές του λόγου. Μάθετε ποιες λέξεις είναι η κύρια ακολουθία, και η οποία - εξαρτώνται, μπορούμε να εξάγουμε αποτελεσματικά πληροφορίες από το κείμενο και να διδάξει το μηχάνημα να εκδώσει σε απάντηση σε ένα αίτημα αναζήτησης μόνο τις πληροφορίες ενδιαφέρων μας.

Με την ευκαιρία, σύγχρονες μηχανές αναζήτησης χρησιμοποιούν αυτό για να δώσει συγκεκριμένους αριθμούς αντί των μεγάλων κειμένων σε απάντηση σχετικών ερωτημάτων όπως «πόσες θερμίδες σε ένα μήλο» ή «η απόσταση από τη Μόσχα στην Αγία Πετρούπολη.» Ωστόσο, για να κατανοήσουν ακόμη και τα βασικά στοιχεία της διαδικασίας που περιγράφεται από την ανάγκη να ζητήσει από την «Εισαγωγή στο Corpus Linguistics» ή άλλες βασικές φροντιστήριο.

σημασιολογική σήμανση

Η σημασιολογία της λέξης - είναι, με απλά λόγια, το νόημα. Ευρέως εφαρμόσιμη προσέγγιση για τη σημασιολογική ανάλυση της λέξης απόδοσης ετικέτες, αντανακλώντας του ανήκει σε ένα σύνολο σημασιολογικών κατηγοριών και υποκατηγοριών. Οι πληροφορίες αυτές είναι πολύτιμες για τη βελτιστοποίηση των αλγορίθμων αναλύει τον τόνο κείμενο, αυτόματη δημιουργία περιλήψεων και άλλα καθήκοντα μεθόδους της γλωσσολογίας σωμάτων.

Υπάρχουν μια σειρά από «ρίζα» του δέντρου, που αντιπροσωπεύει μια αφηρημένη λέξη με ένα πολύ ευρύ σημασιολογία. Ως ένας κλάδος των κόμβων δένδρου σχηματίζονται, που περιέχουν περισσότερο και πιο συγκεκριμένα λεξιλογικές στοιχεία. Για παράδειγμα, η λέξη «πλάσμα» μπορεί να σχετίζεται με έννοιες όπως «ανθρώπινο» και «ζώο». Η πρώτη λέξη θα συνεχίσει να επεκταθούν σε διαφορετικά επαγγέλματα, οι όροι συγγένειας, την εθνικότητα, και το δεύτερο - για τις κατηγορίες και τα είδη των ζώων.

Η χρήση των συστημάτων ανάκτησης πληροφοριών

Τομείς της χρήσης της γλωσσολογίας σωμάτων καλύπτουν διάφορους τομείς δραστηριότητας. Τα περιβλήματα που χρησιμοποιούνται για την προετοιμασία και τη διόρθωση των λεξικών, δημιουργούν αυτοματοποιημένα συστήματα μετάφρασης, σχολιασμό, την ανάκτηση στοιχείων, τον καθορισμό του τόνου και άλλων επεξεργασίας κειμένου.

Επιπλέον, οι πόροι αυτοί χρησιμοποιούνται ενεργά στη μελέτη της γλώσσες του κόσμου και τους μηχανισμούς λειτουργίας της γλώσσας γενικότερα. Η πρόσβαση σε μεγάλους όγκους έτοιμα πληροφοριών διευκολύνει την ταχεία και ολοκληρωμένη μελέτη των τάσεων της ανάπτυξης γλώσσες, και την αλλαγή σταθερή νεολογισμούς σχηματισμό ταχύτητα ομιλίας τιμές λεκτικές μονάδες και άλλα.

Από το έργο με τόσο μεγάλο όγκο δεδομένων απαιτεί αυτοματισμού, σήμερα υπάρχει στενή αλληλεπίδραση μεταξύ των υπολογιστών και corpus γλωσσολογία.

Ρωσική Εθνική Corpus

Η υπόθεση αυτή (συντομογραφία NKRYA) περιλαμβάνει μια σειρά από subcorpus, επιτρέποντας τη χρήση ενός πόρου για μια ευρεία ποικιλία των εργασιών.

Τα υλικά στη βάση δεδομένων χωρίζεται NKRYA:

  • σε δημοσιεύσεις στην δεκαετία του '90 και της δεκαετίας του 2000 των μέσων ενημέρωσης», τόσο στις εγχώριες όσο και ξένες?
  • καταγραφή ομιλίας?
  • aktsentologicheski σημειώνονται κείμενα (δηλ, τα σήματα του στρες)?
  • διάλεκτο ομιλία?
  • ποίηση?
  • Υλικά με συντακτική και άλλα σημάδια.

Το πληροφοριακό σύστημα περιλαμβάνει επίσης Subcorpus με παράλληλες μεταφράσεις έργων από τα ρωσικά στα αγγλικά, γερμανικά, γαλλικά και πολλές άλλες γλώσσες (και αντίστροφα).

Επίσης στη βάση δεδομένων υπάρχει ένα τμήμα των ιστορικών κειμένων, που αντιπροσωπεύει το γραπτό λόγο στα ρωσικά σε διαφορετικές περιόδους της ανάπτυξής του. Υπάρχει επίσης ένα σώμα εκπαίδευσης, το οποίο μπορεί να είναι χρήσιμο για τους ξένους πολίτες στην εκμάθηση της ρωσικής γλώσσας.

Ρωσική Εθνική Corpus περιλαμβάνει 400 εκατομμύρια λεκτικές μονάδες, και με πολλούς τρόπους πριν από ένα σημαντικό μέρος από τις γλώσσες της Ευρώπης φορείς.

προοπτικές

Γεγονός υπέρ της αναγνώρισης της τάσης αυτής είναι η διαθεσιμότητα πολλά υποσχόμενη εργαστήριο γλωσσολογίας σωμάτων στα ρωσικά πανεπιστήμια, καθώς και του εξωτερικού. Με τη χρήση της και την έρευνα στο πλαίσιο αυτών των πληροφοριών και αναζήτηση πόρων συνεπάγεται την ανάπτυξη ορισμένων περιοχών στον τομέα της υψηλής τεχνολογίας, τα συστήματα ερώτηση-απάντηση, αλλά συζητείται παραπάνω.

Η περαιτέρω ανάπτυξη του σώματος γλωσσολογίας προβλέπεται σε όλα τα επίπεδα, που κυμαίνονται από τεχνική όσο και από πλευράς εφαρμογής των νέων αλγορίθμων που βελτιστοποιούν τις διαδικασίες για την αναζήτηση και επεξεργασία πληροφοριών, την ενδυνάμωση υπολογιστές, περισσότερη μνήμη RAM, και των καταναλωτών, επειδή οι χρήστες είναι όλο και περισσότερους τρόπους για να χρησιμοποιήσετε αυτό το είδος των πόρων στην καθημερινή τους ζωή και το έργο.

Εν κατακλείδι

Στα μέσα του περασμένου αιώνα, το 2017 φαινόταν μακρινό μέλλον, όπου διαστημόπλοια ταξιδεύουν μέσα από το σύμπαν και τα ρομπότ κάνουν όλη τη δουλειά για τους ανθρώπους. Στην πραγματικότητα, η επιστήμη είναι γεμάτη με «λευκών κηλίδων» και κάνει απεγνωσμένες προσπάθειες να απαντήσει στα ερωτήματα της ανθρωπότητας για αιώνες διατάραξη. Ερωτήσεις λειτουργία της γλώσσας εδώ καταλαμβάνουν μια τιμητική θέση, και το υπουργικό συμβούλιο και υπολογιστική γλωσσολογία μπορεί να μας βοηθήσει για να τους απαντήσει.

Επεξεργασία των μεγάλων συνόλων δεδομένων που μπορούν να ανιχνεύσουν μοτίβα, προηγουμένως απρόσιτες, προβλέπουν την ανάπτυξη ειδικών χαρακτηριστικών γλώσσα για να παρακολουθείτε το σχηματισμό των λέξεων σε σχεδόν πραγματικό χρόνο.

Σε πρακτικό επίπεδο, οι παγκόσμιες περιβλήματα μπορεί να δει κανείς, για παράδειγμα, ως ένα πιθανό εργαλείο για την αξιολόγηση της δημόσιας διάθεσης - το Διαδίκτυο είναι ένας διαρκώς ενημερώνεται καθημερινά βάση διάφορα κείμενα που δημιουργήθηκε από πραγματικούς χρήστες: αυτό τα σχόλια και τις κριτικές και άρθρα, και πολλές άλλες μορφές λόγου.

Επιπλέον, σε συνεργασία με φορείς συμβάλλει στην ανάπτυξη του ίδιου του υλικού, που εμπλέκονται στην ανάκτηση πληροφοριών, είμαστε εξοικειωμένοι με την υπηρεσία «Google» ή «Yandex», αυτόματη μετάφραση, ηλεκτρονικά λεξικά.

Μπορούμε με βεβαιότητα να ισχυρίζονται ότι η γλωσσολογία σώμα κάνει μόνο τα πρώτα βήματα, και στο εγγύς μέλλον θα ανθίσει.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 el.birmiss.com. Theme powered by WordPress.