"Προσαρμογή γνωστικού αντικειμένου σε συστήματα Στατιστικής Μηχανικής Μετάφρασης" "Domain adaptation in Statistical Machine Translation" Abstract Human beings are capable of categorizing a document based on its topic. Computers are already able to perform very well on that task. However, when translating from one language to another, the human translator will use this knowledge to adapt the writing style and vocabulary for the translation to sound as natural as possible. Statistical Machine Translation (SMT) uses Probabilistic Machine Learning methods to perform translations. However, such systems do not perform well in domains different from the ones used to train them. How can the ability to recognize the topic of a document be captured by an SMT system to perform better? Methodologies for adapting a Statistical Machine Translation System to a specific domain are explored. Two methods are examined. The one mixes translation and language models, weighing them appropriately to improve translation quality. The other uses unsupervised methods to cluster a corpus into sub-corpora, train them individually and decode on a specific trained cluster according to the genre or “domain” of the new sentence to be translated. Experimentation showed improvement in translation quality using both methods. Training on a small domain-specific corpus and a large general one, can improve the performance on translating documents in the small corpus’ domain. Περίληψη Η μέση ανθρώπινη διάνοια έχει τη δυνατότητα να κατηγοριοποιεί ένα κείμενο με βάση το αντικείμενό του. Πολλοί σύγχρονοι αλγόριθμοι μπορούν ήδη να επιτελέσουν αυτό το έργο με μεγάλη ακρίβεια. Κατά τη μετάφραση από μια γλώσσα σε μια άλλη, ο επαγγελματίας μεταφραστής μπορεί να χρησιμοποιήσει αυτή τη γνώση για να προσαρμόσει κατάλληλα το ύφος και το λεξιλόγιο της μετάφρασής του. Η Στατιστική Μηχανική Μετάφραση (ΣΜΜ) χρησιμοποιεί μεθόδους Μηχανικής Μάθησης για την πραγματοποίηση μεταφράσεων. Ωστόσο, τα τρέχοντα συστήματα ΣΜΜ δεν παράγουν καλές μεταφράσεις σε γνωστικά αντικείμενα διαφορετικά από αυτά που έχουν χρησιμοποιηθεί κατά την εκπαίδευσή τους. Πώς, λοιπόν, μπορεί η αναγνώριση του γνωστικού αντικειμένου να λειτουργήσει προς την κατεύθυνση της βελτίωσης της ποιότητας της μετάφρασης; Εξετάζονται δύο μέθοδοι για την προσαρμογή ενός συστήματος Στατιστικής Μηχανικής Μετάφρασης σε συγκεκριμένα γνωστικά πεδία. Η πρώτη συνδυάζει τα μοντέλα μετάφρασης και γλώσσας, σταθμίζοντας τη βαρύτητα του καθενός από αυτά για τη βελτίωση της ποιότητας της μετάφρασης. Η δεύτερη, χρησιμοποιεί μη-επιβλεπόμενη μάθηση για την δημιουργία συστάδων (clusters) από το σώμα εκπαίδευσης και δημιουργία ξεχωριστού μοντέλου για κάθε συστάδα. Τα αποτελέσματα των πειραμάτων έδειξαν ότι υπάρχει βελτίωση στην ποιότητα μετάφρασης και με τις δύο μεθόδους. Συμπερασματικά, εκπαιδεύοντας ένα σύστημα ΣΜΜ με συνδυασμό ενός μικρού εξειδικευμένου σώματος εκπαίδευσης και ενός πολύ μεγαλύτερου αλλά γενικού, βοηθά στη βελτίωση της ποιότητας μετάφρασης σε κείμενα που ανήκουν στο γνωστικό αντικείμενο του εξειδικευμένου σώματος εκπαίδευσης.