エンハンストキャプション

はじめに

エンハンストキャプションは Brightcove AI スイートの一部で、オーディオキューと話者帰属の 2 つの機能を追加することで、既存のキャプション機能を強化します。

オーディオキューは、キャプションに非音声のサウンド表示（例：[music]、[applause]）を自動的に挿入します。

話者帰属は、キャプション内で誰が話しているかを識別してラベル付けします。

両方の機能は管理モジュールで個別にオン/オフできます。

管理モジュールを開き、Captions and Audio を選択します。
General Caption Settings セクションで Use hyphens to mark speaker changes（話者帰属）と Include non-speech audio cues (e.g., [music], [laughter])（オーディオキュー）を探します。
必要に応じて各トグルをオンまたはオフにします。変更は自動的に保存されます。

有効にすると、オーディオキューは生成されたキャプションに自動的に含まれます。追加の操作は不要です。キャプションを生成または再生成すると、オーディオキューは自動的に表示されます。

オーディオキューの例：[music]、[applause]、[laughter]。

話者帰属は、誰が話しているかを示すラベルを追加します。話者帰属には次の 3 つのモードがあります。

話者の切り替えを示すためにハイフン（-）が使用されます。

形式：[Speaker 1]、[Speaker 2] など。これらのラベルはすべての話者切り替えまたはキャプションブロックの前に表示されます。

形式：[Sarah]、[Dylan] など。システムはオーディオまたは動画のコンテキストから話者名を検出して自動的に割り当てます。名前を検出できない場合は、汎用名形式（例：[Speaker 1]）にフォールバックします。

話者帰属モード
モード	形式	表示タイミング	名前の決定方法
ハイフン（デフォルト）	`-`	同じキャプションブロック内で話者が変わる場合のみ	該当なし
汎用名	`[Speaker 1]`、`[Speaker 2]`	話者切り替え / キャプションブロックごと	自動採番
実際の名前	`[Sarah]`、`[Dylan]`	話者切り替え / キャプションブロックごと	コンテキストから AI 検出。検出できない場合は汎用にフォールバック

動画の詳細ページから 1 本の動画について、オーディオキューおよび/または話者帰属付きのキャプションを生成します。

メディアモジュールから複数の動画をまとめてエンハンストキャプション付きのキャプションを生成します。

オーディオキューと話者帰属を含むキャプションは、キャプションエディタで編集できます。現在、話者名を変更するには、1 行ずつ編集する必要があります。

トラックを編集するには、言語セクションでトラック横の Edit text track 鉛筆アイコンをクリックします。
テキストエディタで直接変更を加え、下書きを保存します。
オーディオキューまたは話者名の角括弧は削除しないでください。システムはこれらの括弧で異なるキャプション要素の種類を区別しています。削除すると機能が正常に動作しなくなります。

エンハンストキャプションは、Dynamic Ingest API でオートキャプションをリクエストする際に利用できます。リクエスト形式、認証、標準のリクエストボディフィールドについては、Requesting Auto Captions を参照してください。

以下の表は、エンハンストキャプション（話者帰属とオーディオキュー）用の追加リクエストボディフィールドを示しています。

エンハンストキャプションの追加フィールド
Field	Type	Required	Description
`diarization_mode`	string	no	生成されたキャプションで話者帰属をどのように表示するかを指定します。指定可能な値： `hyphen` — ハイフン（`-`）で話者の切り替えを示します。同じキャプションブロック内で話者が切り替わった場合にのみ表示されます。 `speaker_labels` — `[Speaker 1]`、`[Speaker 2]` などの汎用ラベルが、話者の切り替えまたはキャプションブロックの前に表示されます。 `speaker_names` — オーディオまたは動画コンテキストから実際の話者名（例：`[Sarah]`、`[Dylan]`）の検出を試みます。検出できない場合は汎用形式（例：`[Speaker 1]`）にフォールバックします。
`enable_audio_tags`	boolean	no	`true` の場合、`[music]`、`[applause]`、`[laughter]` などの非音声の音声インジケータ（オーディオキュー）が生成されたキャプションに挿入されます。

エンハンストキャプションを有効にするにはどうすればよいですか？
管理モジュールでオーディオキューおよび/または話者帰属をオンにします。
既存のキャプションでエンハンストキャプションを使えますか？
エンハンストキャプションは新規に生成されたキャプションに適用されます。既存のキャプションに機能を適用するには、再生成する必要があります。
AI が話者名を検出できない場合はどうなりますか？
汎用形式（例：[Speaker 1]）にフォールバックします。
生成後に話者名を編集できますか？
はい。ただし現在は 1 行ずつ変更する必要があります。今後の UI 更新で一括の名前変更が可能になる予定です。