Houdini Subtitles

ここでは、SideFX 社の 3DCG ソフトウェアである Houdini 関連の英語ビデオに日本語字幕をつける上でのルールについて説明する。

  1. Houdini について翻訳者が知っているべきこと
  2. 日本語字幕の対象者および目的
  3. 字幕作成に使うツール
  4. 字幕ファイルフォーマット
  5. 字幕の長さおよび開始点
  6. 字幕英和翻訳基本ルール
  7. わかり易い字幕のために
  8. 英和訳によくある問題点
  9. ファイル操作トリック

I: Houdini について翻訳者が知っているべきこと

  • Web サイト各英語ページの URL の先頭 (.com/ の後) に 'ja/' を挿入すれば、翻訳されたページがあれば日本語で表示される。 'ja/' を取り除けば原文ページが表示される。
  • 製品
    • 主に、映像製作やゲーム開発でのCGや3Dデータ生成に使われている
      • Houdini FX: 最も高価なすべての機能を含むフルパッケージ
      • Houdini Core: Houdini FX から FX (特殊効果)機能を除いた廉価版
      • Houdini Indie: Houdini FX と同等の機能を持つ Indie ユーザ向けソフト
      • Houdini Education: 学校など教育機関向け、機能は Houdini FX と同等
      • Houdini Apprentice: 無償体験版、入出力に制限あり
    • 一般にはハイエンドソフトウェアだと認知され、無償体験版を除けば高価
    • UI・メニューは英語のみ。ドキュメントは日本語でも提供している
    • Windows, Linux, Mac OS 上で動く
  • ビデオの種類
      Houdini 関連のビデオで日本語字幕の対象となるのは主に以下の通り
      • マーケティングビデオ
        • Houdini Connect: ユーザのインタビューを元にした3~7分程度のマーケティングビデオ。
        • イベント講演ビデオ: Siggraph、GDC その他業界イベントにおける30分~1時間程度のユーザ事例ビデオ
      • チュートリアルビデオ
        • Quick Start ビデオ: 3分から10分ぐらいまでの固有新機能一つを説明するためのビデオ。技術的難易度は低い。
        • Master Class ビデオ: 約1時間程度の機能群を紹介するためのビデオ。技術的難易度は高い。
      いずれの場合も、スピーカ (講演者) はその分野での達人ではあっても、しゃべり慣れたプロの講演者でも俳優でもなく、台本を元にしたセリフでもないため、文章の長さもペースもまちまちであり、言い間違いもない訳ではない。外国訛りが強い場合も多い。

II: 日本語字幕の対象者および目的

  • 対象者: 日本語を母国語として
    • 映像制作またはゲーム開発に従事しているかその業界に興味がある、または入りたいと思っている人 (社会人と学生)
    • Houdini に興味があるが他の3Dソフトウェアを使っている人
    • Houdini を現在使っている人
    つまり
    • 元のムービーは、一般的に (CG) アーティストおよびプログラマ向けに作られている。
    • 視聴者は 3DCG およびコンピュータに関する通常以上の理解がある。
    • カタカナ言葉、英単語にそれほどアレルギーがない。
  • 目的
    • マーケティングビデオ: Houdini の良さを知ってもらう
    • チュートリアルビデオ: Houdini を出来るだけ早く習得できるように助ける

III: 字幕作成に使うツール (ソフトウェア)

以下は SideFX 社で使っているツール。これらの使用が必須ということではない。

  • Camtasia Studio: 字幕編集のメインツール。ビデオファイルに翻訳ファイル (.srt) を追加し、字幕文字列やそのタイミングの編集を行う。最初の30日間は試用可能。2020年以降 8.6 固定。
  • EmEditor: 様々なエンコードに対応したテキストエディタ。正規表現による置換も便利。
  • Microsoft Excel: 字幕ファイルから文字列部分の抽出に使用。
      Excel と EmEditor を使って SRT から テキスト部分だけを抜き出す方法 (vimeo)。

IV: 字幕ファイルフォーマット

  1. .SRT
    • 字幕ファイルのアップロードには、.srt を使用
    • テキストエディタを使って一括変換などの編集は可能だが、SRT の特性上、テキストエディタでタイミングの編集は現実的ではない
    • Adobe Premiere に Camtasia などで編集した .srt を読み込むと、キャプションの一部が正しく表示されないことがある。これに関しては後述
  2. UTF-8 + BOM
      .srt に日本語文字列を入れて保存する場合 BOM (byte order mark または Signature) 付の UTF-8 で保存が必要
  3. 機種依存文字 ('♪' など) は避ける。

V: 字幕の長さ、文字数、開始点

  1. 長さ: 一つの字幕は、2秒から4秒ぐらいを目安にする。
    • 4秒以上に長くなってもどうしようもないものはそのままにする。
    • 1秒程度のものは前後とつなげる。
    • 短い字幕の後に字幕のない時間枠がある場合は、その字幕の終端を伸ばす。
  2. 文字数:
    • 一つの字幕で扱える最大(全角)文字数は69字
    • Houdini の特徴として、「シミュレーション」とか「ビジュアリゼーション」など、長めのカタカナ言葉が頻出するので、文字数に常に神経質にならなくとも良いが、一画面に表示できる最大文字数は、「あ」だけを使うと
      • Camtasia 上では 23文字x3行 = 69文字
      • Vimeo 上では 38文字x3行 = 114文字
      全て全角文字での実例では Vimeo、YouTube ともに 37文字のよう。以下の例は、このページの3番目。
      Vimeo YouTube
      全角文字と半角文字が混在する場合には、Vimeo、YouTube では一行に表示できる文字数が変わる模様。
      Vimeo YouTube
      これは、ブラウザで指定しているフォントによるのかもしれない。
      いずれにせよ、Camtasia 上で表示できない部分は事実上編集できないので、どんなに長くとも69全角文字に収める。
  • 開始点: 各字幕の開始点は以下の要領で設定する。
    1. Camtasia でタイムライン上に2秒間隔で数値が表示され、小さな目盛が半秒ぐらいになるようにする。
    2. この大きさで、各字幕の先頭を対応する波形の先頭に合せる。誤差は大体1/4 秒以下。

      ここでは 1.5秒ぐらい字幕が音声から遅れているので波形の先頭に合せる。

  • VI. 字幕英和翻訳基本ルール

    翻訳は例外が限りなく発生する作業なので、すべてのルールを同時に厳守するのは非現実的。とはいえ、SideFX の翻訳を行う上では、以下を考慮する。

    1. コンテクストに合せる
    2. しゃべっていることが常に字幕に表示されるようにする
    3. 謙譲語・尊敬語は使わない
    4. 句読点をフル活用する
    5. 全角英数字は使わない
    6. カタカナ4文字以上の場合、最後の音引きは取る
    7. アルファベットのままにするもの
    8. ひらがなから漢字にするもの
    9. 空白字幕を避ける

    0. コンテクストに合せる

    翻訳はコンテクスト次第である。これを説明し始めると、それ専用のページが必要になるが、辞書・Glossaryよりもコンテクストに応じる。

    1. しゃべっていることが常に字幕に表示されるようにする

    日本語と英語では文法が大きく異なり、英語で A, B という文節の順番が、日本語では B, A という順で訳されることは多々あるが、そういう場合は、

    1. 接続詞や文節の最後を調整するなどして同じ順番にし、原文に対応する字幕が常に表示されるようにする。
    2. 字幕を長くして両方表示するようにする。

    2. 謙譲語・尊敬語は使わない

    • 視聴者は各字幕文を2秒から4秒ぐらいで理解する必要がある。よって、短くわかり易いことが重要。尊敬語・謙譲語の多用は読み易さを失う。
        例:「ご紹介します」や「お見せします」は「紹介します」にする。

    3. 句読点をフル活用する

    ちまたには、「日本語字幕には句読点は使わない」というルールがあるが、台詞主体のドラマでなく、理論やソフトウェアの操作を説明し、音声の途切れが少ない映像では、句読点がないと読みづらいだけでなく論理的判断が出来ない。また、字幕ファイルの文字列を他の目的に再利用場合もある。よって句読点は読みやすさと論理的判断を助けるためにフル活用する。

    4. 全角英数字は使わない

    1. 日本語句読点 {。, 、} とかぎ括弧 {「, 」} 以外のアルファベット、数字、記号 {+, -, =, /, *, &, ' ' (スペース) など} はすべて半角 (シングルバイト) 文字を使う
    2. '(' と ')' も半角で、前後に半角スペースを入れる
        (後で一括変換できるので大問題ではないが)
    3. " (x22) と ' (x27) も半角で、Lower ASCII のストレートのものを使う

    5. カタカナ4文字以上の場合、最後の音引きは取る

    必ずしもマイクロソフト「コンピューター」に合わせる必要はなく、字幕の場合、短い方が有り難い。

    1. 「コンピュータ」、「シェーダ」、「エディタ」、「プログラマ」など。
    2. 音引きをつける例: 「コピー」、「オイラー」(Euler)、「メニュー」など、カタカナで大体4文字以下。

    6. アルファベットのままにするもの

    基本的に大文字で始まっている単語は訳さない

    1. UI のラベル、メニュー名(ラベル)、パラメータラベルは英語のまま。
    2. 会社名、講演者名など、固有名詞もアルファベットで表記しカタカナにはしない。

    7. ひらがなから漢字にするもの

    Google 翻訳などを使うと以下は平仮名で出力されることが多いが、字幕で時数を削りたい場合は、漢字の方が有難い。

    1. たとえば -> 例えば
    2. さまざま -> 様々
    3. ほとんど -> 殆ど
    (後で一括変換できるのであまり問題ではないが)

    8. 空白字幕をできるだけなくす

    字幕の長さを発声の最初と最後にぴっちりと合わせて次の発声までの期間を空白にするのではなく、後ろを伸ばして次の字幕までの空白を埋める。この理由は特に Premiere 問題を避けるため。Adobe Premiere での編集処理が発生する場合には必須 (別途指定)。そうでない場合は、必ずしも必須ではない。

    VII: わかり易い字幕のために

    翻訳基本ルール同様、以下のルールを同時にすべて適用しようとすると論理的に破綻するが、状況に応じて以下のうち正しい選択を行う。正しい選択とは、字幕提供の目的に最も忠実なものである。

    1. しゃべっていることが字幕に表示されていること
    2. 短い方が分かり易い
      • 原文を殺すことなく、出来るだけ短く。長文は切る。
          長くなる言い回しはできるだけ簡単にする。俳句の編集に近いかも。
      • コンテクストさえ合っていれば、直訳するのは不要、長くなるのであれば各単語をすべて訳すのも不要、場合によっては、文節を削除することもアリ。
      • ペースに合わせる
          同じ英文であったとしても、それが2秒の場合と1秒の場合では、読み手が咀嚼できる字幕文字数は異なる。つまり、喋りのペースが速ければ日本語字幕は短い方が良いし、ゆっくりであれば余裕が出来る。喋りが早い場合は、読点「、」は少ない方が追い易い。併せて、前後との関係にも配慮する。
    3. 時制の不一致: 英文が現在形であっても、
      • 既に終了しているのであれば過去形(完了形)にした方がわかり易い。
      • これから起きることであれば、これから起こるように(未来形で)訳す。
    4. 言動と行動が一致しない場合
      • 例えば、講演者が "the third input" に接続すると言いながら4番目に接続を行っている場合など、言動と行動が一致しない場合に日本語字幕をどうするかは悩むところの一つ。
      • こういった時は、字幕提供する目的を思い出す。これがチュートリアルであれば、正しい操作を促すよう行動に合わせる。時間とスペースに余裕があるのであれば簡単に「4番目(が正しい) に接続します」などとするのも良い。

    VIII: 英和訳によくある問題点

    1. 原文に問題あり
        翻訳者にはどうにもならない。担当者に連絡。
    2. 日本語文法上の問題
      1. 句読点問題
        • 無いと論理的判断がでいない場合もあるが、あることで間違った判断につながる場合もある。
        • 読点は多すぎても少なすぎてもダメ。
        • この本を読む。
      2. 語順の問題
        • 修飾句の順番で理解し易さが大きく変わる。
        • ここの図が問題を端的に表している。
        • ただしスピーカ(講演者)のしゃべりと字幕表示の順番が大きく変わるとわかり辛くなるので、バランスを取る必要がある。
        • この本を読む。
      3. 誤字・脱字・誤変換をつぶす
        • 選択・洗濯
        • 多岐・多喜
        • 散乱・産卵
        • 避ける・ 裂ける
        • 軸・ 時九など
    3. 誤訳
      1. 英文法の処理問題
        • カンマの位置、関係代名詞などによる文節の切れ目を正しく処理していない
        • 単数・複数、冠詞あるなしによる意味の違いを処理していない
        • 時制: 現在・過去・未来・進行形・完了形が正しく訳されていない
      2. コンテクストの理解不足
        • 技術的: 製品 (技術) を使っていないと理解できない部分
        • 文化的: (北米に)住んでいないと知らない商品、イベント、表現など
            例: Zamboni: スケートリンクを平らにする乗り物。カナダ人ならだれでも知っている。転じて、既存のもの (データ等) を一新するときに動詞として使う場合がある。
        • 業界的: 上記二つのいずれとも関連するが、辞書での定義がコンテクストに合わない場合。
            例えば、"embers" という単語は、英〇郎では「燃えさし」や「残り火」で、M-W では "a glowing fragment (as of coal) from a fire" となっているが、CG、特に エフェクト CG では、ほぼ間違いなく「火の粉」と訳すのが正しい。こういうのは、Google で "embers" を画像検索すると感覚をつかみ易い。
      3. 先入観
        • 一つの英単語もコンテクストによって訳が違う
    4. (単に) わかりづらい・読みづらい
      1. 意味が曖昧
          じっくり時間をかけて読める文章であればあまり問題にならないかもしれないが、字幕の場合、意味を咀嚼できる時間は数秒に限られるので、曖昧な表現や二つ以上の意味を持つ言葉を避ける。

          例: The Limit is how far points can stray from the original data.
          和訳1: Limit は、ポイントが元のデータから外れる程度です。
          「程度」だと「その程度の~」と勘違いしやすい。そこで、
          和訳2: Limit はポイントが元のデータから外れる度合です。
          とした方が瞬時に意味が正しく組み取れる。
      2. 丁寧語なのか受動態なのか曖昧
        • (原文のコンテクスト次第だが) 技術的内容であれば丁寧語は使わなくて良い。
        • ユーザが行った操作と(その結果)、 PC/ソフトが実行した結果が並列的に出て来る場合、その違いを瞬時に区別できるようにする
          • ユーザ操作: 能動態
          • PC/ソフト挙動: 受動態
      3. 「~です。」「~ます。」が何度続くのを避ける
        • 短い「~です。」「~です。」が何度も続くと集中力が失われやすい。「~で、~です。」や「~ですが、~です。」などと接続詞でつなぐ。


    IX. EmEditor 置換トリック

    Regular Expression を使ったよく使う置換

    1. 2行に分かれた (コンマやピリオドが行末に無い) 行の接続
      • Find に
        (\p{alpha})\n(\p{alpha})
      • Replace with に
        \1 \2
    2. コンマ (,) が行末の行を次の行と接続
      • Find に
        (\p{alpha}),\n(\p{alpha})
      • Replace with に
        \1, \2
    3. 日本語と日本語の間の半角スペースを取り除く
      • Find に
        (\p{unicode}) (\p{unicode})
      • Replace with に
        \1\2

    X. VTT から SRT

    .vtt と .srt の大きな違いはタイムコード表記
    .vtt: 00:00:00.400 --> 00:00:01.340 line:15%
    .srt: 00:00:00,000 --> 00:00:00,400
    .vtt ではピリオドで秒以下を区切り、.srt ではカンマで区切っている。それ以外に .vtt には他にも修飾句があるが、Camtasia では無視されるようなので削除しなくとも問題ない。 また、SRT は「時間」:「分」: 「秒」の3つが必須なのに対し、VTT は分と秒だけでも良いみたい。

    1. EmEditor の置換で
      • Find に
        ([0-9][0-9]:[0-9][0-9])\.
      • Replace with に
        $1,
      として一括置換。
    2. 「時間」がない場合、
      • Find に
        ([0-9][0-9]:[0-9][0-9])\,
      • Replace with に
        00:$1,
        とする。
      .srt として保存。
      気になるのであれば、以下も行う。あっても問題ないっぽい。
    3. ファイル先頭の WEBVTT を削除する。
    4. キャプション文章で使われている "<v " や "</v>" などすべて削除する。
    5. "line:15% " なども削除する。

    XI. Adobe Premiere への SRT の読み込み

    私が Premiere を使っていないので完全に原因を理解した訳ではないが、Adobe Premiere に Camtasia からなどでの作成した .srt を読み込むと、一部で翻訳が正しく表示されない場合がある。

    なんとなく怪しいのは空白キャプションとその次のキャプションの処理で、上記の部分のキャプションは、Premiere から出力すると以下のようになっている。

    何故か 78 の次に 49 となって、その後 79, 80, 81... と続く。同様の問題は、Camtasia から YouTube ないし Vimeo に出力した場合は起きない。

    現状考えられる対処方法は、

    1. 一つ前のキャプションを伸ばして、空白キャプションはできるだけ作らない。
    2. #1 が無理な場合は、" " (半角スペース) を追加する。
    3. Adobe Premiereでは、ビデオ編集のみにして、キャプション編集は行わない。
    #2 半角スペースを追加すると、半角スペース部分が影表示されウザい場合もあるので、一番良いのは Premiere では編集を行わないこと。

    リンク


    最終更新: 2024-09-15

    0 件のコメント:

    コメントを投稿