Maskinöversättning: Analysera genus

The Challenge

Machine translation (MT) becomes increasingly important in a global world. Although error rates are still high, MT system accuracies are improving incrementally. Some errors in current systems, however, are based on fundamental technological challenges that require non-incremental solutions. One such problem is related to gender: State-of-the-art translation systems like Google Translate or Systran massively overuse masculine pronouns (he, him) even where the text specifically refers to a woman (Minkov et al., 2007). The result is an unacceptable infidelity of the resulting translations and perpetuation of gender bias.

Method: Analyzing Gender

The reliance on a "masculine default" in modern machine translation systems results from current systems that do not determine the gender of each person mentioned in a text. Instead, the translation is produced by finding all the possible matches for a given phrase in large collections of bilingual texts, and then choosing a match based on factors such as its frequency in large text "corpora"(or bodies of text). Masculine pronouns are over-represented in the large text corpora that modern systems are trained on, resulting in over-use in translations.In July 2012 the Gendered Innovations project convened a workshop to discuss potential solutions. Improving feminine-masculine pronoun balance in these corpora, for example, would still not fix the problem, since it will simply cause both women and men to be randomly referred to with the wrong gender. Instead, it is crucial to develop algorithms that explicitly determine the gender of each person mentioned in text and use this computed gender to inform the translation. Such algorithms could avoid the masculine default and also increase the quality of translation overall.

Gendered Innovations:

  1. Studying the Male Default in Machine Translation
  2. Detecting the Gender of Entities to Improve Translation Algorithms (research in progress)

Utmaningen
Innovation med genusperspektiv 1. Studera maskulinum som genusstandard inom maskinöversättning
Metod: Analysera kön
Innovation med genusperspektiv 2. Detektera enheters genus för att förbättra översättningsalgoritmer
Metod: Ompröva forskningsprioriteringar och resultat
Konklusioner

Utmaningen

Maskinöversättning (MT) är ett viktigt område inom Natural Language Processing (NLP) och en kritisk tillämpning i en värld som bli alltmer globaliserad. Även om antalet maskinöversättningsfel fortfarande är högt, förbättras systemens noggrannhet alltmer i takt med att utvecklare gör inkrementella förbättringar. Vissa fel i nuvarande system grundar sig dock på grundläggande tekniska problem som kräver icke-krementella lösningar. Ett sådant problem är genus. Moderna översättningssystem som Google Translate och Systran överanvänder i stor utsträckning manliga pronomen (han, honom), även där texten de facto refererar till en kvinna (Minkov et al., 2007). Resultatet är oacceptabla avvikelser i översättningarna och ett bevarande av genusbias.

Problemet uppstår oavsett om översättningen görs från engelska till andra språk eller från andra språk till engelska. Det är särskilt vanligt i översättningar från ett språk med få genusböjningar (som engelska) till språk där genusböjning är mer vanligt förekommande (de flesta andra indoeuropeiska språk) (Banea et al., 2008). I den engelska meningen "a defendant was sentenced" är det oklart om svarande är kvinna eller man. När meningen översätts till tyska måste den återges i en av två möjliga former som specificerar om svarande är kvinna eller man (Frank et al., 2004):

Engelska: Tyska:
"A defendant was sentenced." "Ein Angeklagter wurde verurteilt."
(Svarandes kön specificeras inte.)

(Svarandes specificeras som man – för närvarande standard i Google Translate.)

or

"Eine Angeklagte wurde verurteilt."
(Svarande specificeras som kvinna.)

En människa kan använda sig av kontexten (föregående eller efterföljande meningar i dokumentet) för att ta reda på vilket kön den svarande har. Dagens maskinöversättningssystem kan dock inte använda sig av föregående eller efterföljande meningar. Följden blir att systemen helt enkelt förlitar sig på frekvens, och väljer det genus som oftast används för den exakta frasen – "ein Angeklagter wurde" eller "eine Angeklagte wurde" – i textkorpus. Ofta resulterar detta i en manlig standard, även om standarden i bland är kvinnlig – se figuren nedan.

image of google translation page

Det här problemet uppstår även vid översättning från andra språk till engelska. Det spanska pronomenet "su" kan på engelska översättas med "his" eller "her". Det här problemet är vanligt vid översättning från ett språk där pronomen ofta utelämnas (ett så kallat "pro-drop"-språk som exempelvis spanska, kinesiska, och japanska) till ett språk som engelska som inte utelämnar pronomen.

Innovation med genusperspektiv 1: Studera maskulinum som genusstandard inom maskinöversättning

Översättning från spanska till engelska orsakar ett antal genusproblem i modern översättningsprogramvara. En anledning är att spanskan är ett pro-drop-språk. Det blir alltså svårt att avgöra vilket pronomen som ska användas i översättningen till engelska. I mars 2011 intervjuades Londa Schiebinger av en spansk tidning. Översättningen till engelska av den spanska artikeln visar på svårigheterna – se tabellen nedan.

I de automatiska översättningarna används felaktiga pronomen, trots många antydningar om korrekt genus i texten:

  • "Londa" är ett kvinnonamn på engelska och listas som sådant på nätbaserade namnlistor.
  • Den spanska källtexten innehåller genusböjda ord som "profesora" (feminin form) och beskrivningar som "mujer" (kvinna) som indikerar att "Londa" är en kvinna.

Mänskliga översättare kan använda den informationen för att förstå att den spanska frasen "no le dice nada." som bokstavligen betyder "säger honom/henne ingenting" så måste det spanska ordet "le" ("honom/henne") betyda henne och inte honom.

Ingen av dessa ledtrådar i källtexten används för närvarande av maskinöversättningssystem.

Metod: Analysera genus

Maskinöversättningssystem har svårt att återge korrekt genus för olika textelement eftersom systemen inte har någon lösning på de tre grundproblemen som krävs för att kunna använda de ledtrådar som mänskliga läsare använder sig av:

  1. Mänskliga översättare vet att en bra översättning har samma innebörd som originalet.
  2. Mänskliga läsare känner igen när man talar om människor i en text och återger fakta om människorna som det talas om i texten, till exempel deras kön. Mänskliga läsare identifierar detta även när människor i texten inte uttalat omnämns. Ett verb som inte åtföljs av ett pronomen i ett pro-drop-språk måste översättas med ett pronomen i ett språk som engelska. En mänsklig översättare inser att frasen "'Me encanta el conocimiento,' dice." som bokstavligen betyder "'Jag tycker om kunskap,' sa." o refererar till en person som sa någonting, och som därför bör översättas "'Jag tycker om kunskap', sa hon."
  3. Mänskliga läsare litar till informationen om vilka substantiv och pronomen som de refererar till i intilliggande meningar. Det faktum att "Londa" nämns i den första meningen som subjekt i intervjun talar om för en människa att frasen "sus trabajos" eller "hans/hennes arbete" hänvisar till Londas arbete, och det översätta pronomenet ska ha samma genus som Londa, det vill säga "hennes" och inte "hans". Mänskliga läsare känner till att texter överensstämmer på detta sätt, texten hoppar inte slumpmässigt från person till person i olika meningar. Mänskliga översättare kan känna igen koreferens i det språk de översätter från och skapa koreferens i det språk de översätter till.

Dagens maskinöversättningssystem har inte kapacitet att göra något av följande tre saker:

  1. Systemen väljer inte en översättning för att den har samma betydelse som originalet, utan för att den mest sannolikt använder många av ord eller fraser som en människa skulle använda vid översättning. Detta är liknande men inte identiska krav.
  2. Nuvarande system förstår inte att dessa meningar refererar till människor med genus. De återger inte genus över huvud taget.
  3. Nuvarande system kan inte beräkna koreferenser. Systemen är mycket begränsade i sin förmåga att använda kontext: De översätter en mening i taget, och är därför helt oförmögna att använda information från tidigare meningar (som i omnämnandet av "Londa") för att översätta följande meningar.

Vi anser att det nu finns möjlighet att ta itu med vart och ett av dessa problem (se Innovation med genusperspektiv 2 nedan). För närvarande använder maskinöversättningssystemen de pronomen som är frekventa i de textkorpus som systemen tränats mot. Dessa standarder kan vara starka – se figuren nedan.

Google translate masculine for English they
Maskinöversättningssystemen tränas mot två olika typer av textkorpusar. En typ är "parallellkorpus" där text på ett språk sammanlänkas med översättningen på ett annat språk. Den andra typen är en stor enspråkig korpus som används som grammatikmodell för det språk översättningen görs till. Båda dessa korpustyper kan leda till pronomen med fel genus. En studie av Google Books, en stor enspråkig engelsk korpus, visade att maskulina pronomen är betydligt vanligare i engelska än feminina pronomen, även om denna skillnad har minskat över tiden – se diagrammet nedan. Det är sannolikt denna bias som ledde till de maskulina pronomen som förekom i intervjuexemplet ovan.

ratio of Masculine to Feminine Pronouns in U.S. Books, 1900 to 2008

Större organisationer kräver eller gynnar numera inkluderande språkbruk (Rose, 2010). I engelskan används ofta "she or he" när man refererar till en person vars kön är okänt. Att skriva om en mening i plural löser ofta problemet (se Ompröva språk och visuella representationer). Resultatet är att översättningsalgoritmer som använder "he" som generisk term inte är i fas med dagens användning. Maskinöversättning som inte tar hänsyn till aktuella språkkonventioner löper också risk att förstärka arkaiskt språkbruk när dessa översättningar infogas i korpuset.

Innovation med genusperspektiv 2: Identifiera textenheters genus för att förbättra översättningsalgoritmer

Vi föreslår utveckling av en översättningsalgoritm som kan identifiera genus hos en person man refererar till och därmed generera översättningar med korrekt pronomen. Algoritmen skulle baseras på en koreferenslösning (Ng et al., 2002; Zhou et al., 2004), dvs. där man bestämmer vilka namn, nominalfraser eller pronomen i en text som refererar till den verkliga personen eller enheten. Processen sker i tre steg:

  1. Sök reda på alla element (namn, pronomen, substantiv) som nämns i en text.
  2. Bestäm animacitet (mänsklig eller omänsklig), genus (maskulinum eller femininum) och antal (singular och plural) för vart och ett av dessa element.
  3. Använd probabilistiska algoritmer som ser till strukturen för hela resonemanget, den grammatiska strukturen för varje enskild mening och potentiell animacitet, genus och antal av varje element så att man kan gruppera de omnämnanden som sannolikt korefererar.

I alla dessa steg används avancerad probabilistisk information, bland annat stora databaser som listar personnamn, eller ger sannolikt genus för namn och vanliga substantiv (Bergsma et al., 2005, 2009; U.S. Social Security Administration 2012; Vogel, 2012), och stora uppmärkta datauppsättningar som markerar alla namn, deras genus eller animacitet, och deras korefererande relationer i text (Hovy et al., 2006; Pradhan et al., 2011). Det finns standardalgoritmer för att mäta kvaliteten på pronomen (Byron, 2001) och allmänna koreferenssystem (Pradhan et al., 2011).

Koreferens behöver kontrolleras för engelskan och för alla de språk som man översätter till och från. Välfungerande koreferensalgoritmer finns numera för engelska och några andra språk (bland annat kinesiska och arabiska). Prestandan hos dessa algoritmer (Fernandes et al., 2012; Chen et al., 2012; Lee et al., 2013) är fortfarande inte extremt hög, men tillräckligt hög för att man ska kunna anta att de kan förbättra genushanteringen i moderna MT-algoritmer.

Koreferens behöver kontrolleras för engelskan och för alla de språk som man översätter till och från. Välfungerande koreferensalgoritmer finns numera för engelska och några andra språk (bland annat kinesiska och arabiska). Prestandan hos dessa algoritmer (Fernandes et al., 2012; Chen et al., 2012; Lee et al., 2013) är fortfarande inte extremt hög, men tillräckligt hög för att man ska kunna anta att de kan förbättra genushanteringen i moderna MT-algoritmer.

Algoritmen skulle dessutom innebära att maskinöversättningssystemen kan ta hänsyn till information från andra meningar före och efter den aktuella meningen. Nya algoritmer för "språkmodellering på dokumentnivå" kan bidra till modellering av kontextrelaterade meningar (Momtazi et al., 2010). Nya algoritmer för "dokumentövergripande avkodning" har alldeles nyligen gjort det möjligt att inkorporera sådan långdistansinformation i själva översättningsalgoritmerna (Hardmeier et al., 2012).

Slutligen skulle algoritmen kräva att man förändrar sättet som översättningar optimeras för att införliva information om meningens betydelse, eller åtminstone betydelsen av lyckad igenkänning av element, koreferens och koherens.

Det finns förstås många andra utmaningar i utvecklingen av dessa algoritmer, och alla föreslagna lösningar till dessa underliggande problem skulle kunna misslyckas, vilket kräver alternativa lösningar. Den viktigaste insikten är att för att lösa genusbias inom maskinöversättning krävs tydlig detektering av genus för personer och möjlighet att använda koreferensinformation för att informera översättningen.

Metod: Ompröva forskningsprioriteringar och resultat

Sådana algoritmer har också potential att förbättra resultaten för maskinöversättning i personrika genrer som skönlitteratur, där nuvarande översättningssystem fallerar på grund av oförmågan att framgångsrikt modellera koherens och koferens (Voigt et al., 2012).

Konklusioner

Det är en utmaning av inkludera dessa metoder i moderna maskinöversättningssystem, och det kommer sannolikt att kräva nya algoritmer, nya insikter och nya verktyg. System som explicit förstår när människor omnämns i en text och använder kontextuell information för att förstå mer information om dessa människor, inklusive deras genus, har potential att förbättra läsbarheten och kvaliteten på maskinöversättningar.

Citerade verk

  • Arnold, D., Sadler, L., & Humphreys, R. (1993). Evaluation: An Assessment. Machine Translation, 8 (1-2), 1-24.
  • Babych, B., & Hartley, A. (2003). Improving Machine Translation Quality with Automatic Named Entity Recognition. Proceedings of the 7th International Conference on Empirical Methods in Natural Language Processing (EMAT), Budapest, April 13
  • Banea, C., Mihalcea, R., Wiebe, J., & Hassan, S. (2008). Multilingual Subjectivity Analysis Using Machine Translation. Proceedings of the Association for Computational Linguistics 12th Annual Conference on Empirical Methods in Natural Language Processing (EMNLP), Honolulu, October 25-27.
  • Bergsma, S. (2005). Automatic Acquisition of Gender Information for Anaphora Resolution. Proceeding of Advances in Artificial Intelligence, 18th Conference of the Canadian Society for Computational Studies of Intelligence, Victoria, May 9-11.
  • Bergsma, S., Lin, D., & Goebel, R. (2009). Glen, Glenda or Glendale: Unsupervised and Semi-Supervised Learning of English Noun Gender. Proceedings of the 13th Conference on Computational Natural Language Learning, Boulder, Colorado, June 4-5.
  • Byron, D. (2001). The Uncommon Denominator: A Proposal for Consistent Reporting of Pronoun Resolution Results. Computational Linguistics, 27 (4), 569-577.
  • Chen, C. & Ng, V. (2012). Combining the Best of Two Worlds: A Hybrid Approach to Multilingual Coreference Resolution. Proceedings of the 24th International Conference on Computational Linguistics, Mumbai, December 8-15.
  • Frank, A., Hoffmann, C., & Strobel, M. (2004). Gender Issues in Machine Translation. Lingenio Gmbh, Heidelberg.
  • Fernandes, E., Nogueira dos Santos, C., & Milidiú R. (2012). Latent Structure Perceptron with Feature Induction for Unrestricted Coreference Resolution. Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, July 12-14, 41-48.
  • Hardmeier, C., Nivre, J.,& Tiedemann, J. (2012). Document-Wide Decoding for Phrase-Based Statistical Machine Translation. Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, July 12-14, 1179-1190.
  • Iida, R., & Poesio, M. (2011). A Cross-Lingual ILP Solution to Zero Anaphora Resolution. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, June 19-24, 804-813.
  • Lee, H., Chang, A., Peirsman, Y., Chambers, N., Surdeanu, M., & Jurafsky, D. (2013). Deterministic Coreference Resolution Based on Entity-Centric, Precision-Ranked Rules. Computational Linguistics, 39(4).
  • Hovy, E., Marcus, M., Palmer, M., Ramshaw, L., & Weischedel, R. (2006). OntoNotes: The 90% Solution. Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, New York, June, 57-60.
  • Kong, F. & Zhou, G. (2010). A Tree Kernel-based Unified Framework for Chinese Zero Anaphora Resolution. Proceedings of the Conference on Empirical Methods in Natural Language Processing, Cambridge, Massachusetts, October 9-11.
  • Minkov, E., Toutanova, K., & Suzuki, H. (2007). Generating Complex Morphology for Machine Translation. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, June 23-30, Prague.
  • Momtazi, S., Faubel, F., & Klakow, D. (2010). Within and Across Sentence Boundary Language Model. Proceedings of Interspeech, Makuhari, Japan, September 26-30.
  • Ng, V. & Cardie, C. (2002). Improving Machine Learning Approaches to Coreference Resolution. Proceedings of Association for Computational Linguistics, Philadelphia, July, 104-111.
  • Pradhan, S., Ramshaw, L., Marcus, M., Palmer, M., Weischedel, R., & Xue, N. (2011). Conll-2011 Shared Task: Modeling Unrestricted Coreference in Ontonotes. Proceedings of the 15th Conference on Computational Natural Language Learning, Portland, Oregon, June 23-24,1-27.
  • Rose, L. (2012). The Supreme Court and Gender-Neutral Language: Setting the Standard or Lagging Behind? Duke Journal of Gender Law and Policy, 17 (1), 81-131.
  • Twenge, J., M., Campbell, W., & Gentile, B. (2012). Male and Female Pronoun Use in U.S. Books Reflects Women's Status, 1900-2008. Sex Roles, 67, (9-10), 488-493.
  • U.S. Social Security Administration. (2012). Popular Baby Names: National Data. Washington, D.C.: Government Publishing Office (GPO).
  • Vogel, A., & Jurafsky, D. (2012). He Said, She Said: Gender in the Association for Computational Linguistics Anthology. Proceedings of the ACL-2012 Special Workshop on Rediscovering 50 Years of Discoveries, Jeju Island, Korea, July 10, 33-41.
  • Voigt, R., & Jurafsky, D., (2012). Towards a Literary Machine Translation: The Role of Referential Cohesion. Proceedings of the North American Chapter of the Association for Computational Linguistics Workshop on Computational Linguistics for Literature, Montreal, June.
  • Zhao, S., & Ng, H. (2007). Identification and Resolution of Chinese Zero Pronouns: A Machine Learning Approach. Proceedings of Empirical Methods in Natural Language Processing and Computational Natural Language Learning Joint Conference, Prague, June, 541-550.
  • Zhou, G., & Su, J. (2004). A High-Performance Coreference Resolution System using a Constraint-based Multi-Agent Strategy. Proceedings of the 20th International Conference on Computational Linguistics, Stroudsburg, Pennsylvania.

A couple of years ago, I was in Madrid and was interviewed by some Spanish newspapers. When I returned home, I ran the articles through Google Translate and was shocked that I was referred to repeatedly as "he." "Londa Schiebinger," "he" said, "he" wrote, "he" thought. Google Translate and its European equivalent, SYSTRAN, have a male default.

How could such a "cool" company as Google make such a fundamental error?

Google Translate defaults to the masculine pronoun because "he said" is more commonly found on the web than "she said." Here is the interesting part (see graph below).

ratio of Masculine to Feminine Pronouns in U.S. Books, 1900 to 2008

We know from NGram (another Google product) that the ratio of masculine to feminine pronouns has fallen dramatically from a peak of 4:1 in the 1960s to 2:1 since 2000. This exactly parallels the women's movement and massive governmental funding to increase the number of women in science. With one algorithm, Google wiped out forty years of revolution in language and they didn't mean to. This is unconscious gender bias.

Gendered Innovation:

The fix? July 2012, the Gendered Innovations project held a workshop where we invited two natural language processing experts, one from Stanford and one from Google. They listened for about twenty minutes, they got it, and they said, "we can fix that!" It turns out that fixing this simply annoying problem will lead to innovations in translation overall. Once they got it, we got an innovation. A deeper fix will be to integrate gender studies into the engineering curriculum so that google engineers don't make such errors in the future.