風街記

主にTech系雑記

トランプさんの自動翻訳サイトを作りました

何かと物議をかもしているあの方のツイートを機械翻訳して更新するサイトを作りました。

https://trump-jp.tumblr.com/

主に以下のサービスを利用しております。

Twitter アカウントも用意してるのですが、自動投稿が悪いのかスパム報告されるのか、開発中に何度もアカウントロックされました。
継続したいので寛容にお願いします、Twitter さん。

高校生が運用しているらしい @DonaldTrumpJPN との違いとしては主に以下の5点があります。

1. 過去発言を検索できる

大統領就任後から現在に至るまでのツイートから検索することができます。
リツイートは翻訳対象に入れていないので無駄なノイズもなく検索できます。

日本語でも検索できますが、検索結果として表示される数と実際に表示される件数が違うという問題が発生しています。
Tumblr の仕様なのかテーマの問題なのかは調査中です。

2. 副大統領もいます

大統領ご本人のアカウントだけなく、@WhiteHouse@POTUS@VP も翻訳対象に入れています。
投稿を見ている限り、前者の2つもご本人が更新されているようです。
今後は報道官も必要かなぁと考えています。

3. 深夜でもリアルタイムで更新

日本とアメリカ西海岸(NY)の時差は14時間です。
向こうで午前9時のときに日本では夜の23時なので、機械にお任せすると人は幸せになります。

最初は本当にリアルタイムを目指して1分ごとにチェックしていたのですが、
主に副大統領がツイートを削除して同じような内容を再投稿することが何度もあり、今は10分ごとにチェックしています。
他国のことながら投稿前にチェックする人はいないのだろうかと心配しております。

4. 機械翻訳だから中立

開発中にこんなツイートを見かけました。

大統領のツイートは文法がおかしいことが多々あるので、正しく翻訳するにはどういう背景なのかを汲み取る必要があります。
つまりはどうしても翻訳者の意図が入ってしまうわけです。
好きか嫌いか、右よりか左よりかでも変わってくると思います。

その点、機械は感情も政治的思想もありません。
ただ与えられた英語を訳すだけです。

その訳が正しいかはさておき、最も中立的な立場での翻訳になるのではないでしょうか。

5. 翻訳の精度が低い

実際に作ってみて衝撃を受けました。
想像していた以上に翻訳の精度が低かったです。
(星になったらあかん。)

翻訳には Microsoft の 翻訳 API を使っています。
文法が整っておらずスラングを多用する英文は機械翻訳が苦手とするところなので、
Twitter機械翻訳はかなり相性が悪いものと言えます。
実用的な精度を求めるなら、Google 翻訳 を使わないと無理だなーという印象です。

開発中に Ring を開発したメーカーの新商品の動画を見ましたが、精度は大丈夫なのでしょうか。



逆に文法が整っていてスラングの少ない英文書籍の翻訳は機械が得意とするものだと思います。

まとめ

作った経緯の一つとして、コア部分に Google Apps Script を用いてどれだけのものを作れるかという実験的な意味がありました。
精度に納得のいかない部分はありますが、その点においては目的を果たせたと考えています。
それなりに楽しんで作ることができたので、モチベーションを維持し続けることもできました。

他で使えるかわからない無駄な知識が増えたので、それはおいおい公開してこうと思います。

最後に、お世話になったライブラリのリンクなどをまとめておきます。