はじめに
エンハンストキャプションは Brightcove AI スイートの一部で、オーディオキューと話者帰属の 2 つの機能を追加することで、既存のキャプション機能を強化します。
オーディオキューは、キャプションに非音声のサウンド表示(例:[music]、[applause])を自動的に挿入します。
話者帰属は、キャプション内で誰が話しているかを識別してラベル付けします。
管理設定
両方の機能は 管理 モジュールで個別にオン/オフできます。
- 管理 モジュールを開き、Captions and Audio を選択します。
- General Caption Settings セクションで Use hyphens to mark speaker changes(話者帰属)と Include non-speech audio cues (e.g., [music], [laughter])(オーディオキュー)を探します。
- 必要に応じて各トグルをオンまたはオフにします。変更は自動的に保存されます。
オーディオキュー
有効にすると、オーディオキューは生成されたキャプションに自動的に含まれます。追加の操作は不要です。キャプションを生成または再生成すると、オーディオキューは自動的に表示されます。
オーディオキューの例:[music]、[applause]、[laughter]。
話者帰属
話者帰属は、誰が話しているかを示すラベルを追加します。話者帰属には次の 3 つのモードがあります。
デフォルトモード:ハイフン
話者の切り替えを示すためにハイフン(-)が使用されます。
汎用名
形式:[Speaker 1]、[Speaker 2] など。これらのラベルはすべての話者切り替えまたはキャプションブロックの前に表示されます。
実際の名前
形式:[Sarah]、[Dylan] など。システムはオーディオまたは動画のコンテキストから話者名を検出して自動的に割り当てます。名前を検出できない場合は、汎用名形式(例:[Speaker 1])にフォールバックします。
| モード | 形式 | 表示タイミング | 名前の決定方法 |
|---|---|---|---|
| ハイフン(デフォルト) | - |
同じキャプションブロック内で話者が変わる場合のみ | 該当なし |
| 汎用名 | [Speaker 1]、[Speaker 2] |
話者切り替え / キャプションブロックごと | 自動採番 |
| 実際の名前 | [Sarah]、[Dylan] |
話者切り替え / キャプションブロックごと | コンテキストから AI 検出。検出できない場合は汎用にフォールバック |
動画単位の生成
動画の詳細ページから 1 本の動画について、オーディオキューおよび/または話者帰属付きのキャプションを生成します。
- メディアモジュールで動画を開き、言語セクションを探します。
- 対象言語のキャプションを生成し、話者帰属スタイルを選択します。管理でオーディオキューおよび/または話者帰属が有効な場合、生成されたキャプションに適用されます。
- 処理が完了すると、キャプションには選択したスタイルに応じてオーディオキューと話者帰属が含まれます。必要に応じて確認して公開します。
一括生成
メディアモジュールから複数の動画をまとめてエンハンストキャプション付きのキャプションを生成します。
- メディアモジュールで、処理する動画を選択します。
- ...メニューをクリックし、キャプションとオーディオを選択します。
- ダイアログでキャプションと話者帰属のオプションを設定し、対象言語を選択して生成をクリックし、処理を開始します。
- 処理が完了すると、キャプションは各動画の動画の詳細ページの言語セクションに表示されます。必要に応じて確認して公開します。
キャプションの編集
オーディオキューと話者帰属を含むキャプションは、キャプションエディタで編集できます。現在、話者名を変更するには、1 行ずつ編集する必要があります。
- トラックを編集するには、言語 セクションでトラック横の Edit text track 鉛筆アイコンをクリックします。
- テキストエディタで直接変更を加え、下書きを保存します。
API アクセス
エンハンストキャプションは、Dynamic Ingest API でオートキャプションをリクエストする際に利用できます。リクエスト形式、認証、標準のリクエストボディフィールドについては、Requesting Auto Captions を参照してください。
以下の表は、エンハンストキャプション(話者帰属とオーディオキュー)用の追加リクエストボディフィールドを示しています。
| Field | Type | Required | Description |
|---|---|---|---|
diarization_mode |
string | no |
生成されたキャプションで話者帰属をどのように表示するかを指定します。指定可能な値:
|
enable_audio_tags |
boolean | no | true の場合、[music]、[applause]、[laughter] などの非音声の音声インジケータ(オーディオキュー)が生成されたキャプションに挿入されます。 |
よくある質問
- エンハンストキャプションを有効にするにはどうすればよいですか?
管理モジュールでオーディオキューおよび/または話者帰属をオンにします。 - 既存のキャプションでエンハンストキャプションを使えますか?
エンハンストキャプションは新規に生成されたキャプションに適用されます。既存のキャプションに機能を適用するには、再生成する必要があります。 - AI が話者名を検出できない場合はどうなりますか?
汎用形式(例:[Speaker 1])にフォールバックします。 - 生成後に話者名を編集できますか?
はい。ただし現在は 1 行ずつ変更する必要があります。今後の UI 更新で一括の名前変更が可能になる予定です。