AI TRAINING DATA — ANNOTATION / EVALUATION
AI DATA
CREATION
音声認識AI・会話AI・LLM開発に必要な日本語データを、15年以上の人力文字起こし運用で培った体制で作成します。仕様策定から、アノテーション、品質評価まで。
日次 2,000分超 処理 累計 1,539万分超 対応 PoC 数十時間規模 から
| START | END | SPEAKER | TEXT |
|---|---|---|---|
| 00:00:02.41 | 00:00:08.96 | 話者A | 本日はお時間をいただきありがとうございます。さっそくですが、現在の運用状況について伺えますか。 |
| 00:00:09.32 | 00:00:17.05 | 話者B | はい。現状は月次でデータを集計していて、えー、確認作業に2名で3日ほどかかっています。 |
| 00:00:17.41 | 00:00:21.88 | 話者A | 3日ですか。そのうち一番時間がかかっている工程はどこでしょう。 |
| 00:00:22.30 | 00:00:29.74 | 話者B | 表記の揺れを直すところですね。担当者ごとに書き方が違うので、そこの統一に時間が取られています。 |
{
"audio_id": "call_20260512_0042",
"segments": [
{
"start": 2.41,
"end": 8.96,
"speaker": "operator",
"text": "お電話ありがとうございます。...",
"labels": {
"intent": "greeting",
"sentiment": "neutral",
"overlap": false
}
}
],
"annotator_id": "KL-0118",
"review_status": "approved"
}
ASR OUTPUT(AI出力)
規格の見直しは来月行こうかと思います。
REFERENCE(人手による正解データ)
企画の見直しは来月以降かと思います。
SERVICES
対応業務
音声文字起こしの運用実績を土台に、AI開発のデータ整備を幅広く支援します。
「実績あり」は既存体制で即対応、「対応可能」は仕様確認のうえご提案します。
音声文字起こし
音声認識AIの学習・評価に利用するため、音声データを人手で正確にテキスト化します。
話者分離
複数人の会話音声について、発話者ごとに発言内容を整理します。
音声アノテーション
発話区間、話者、発言内容、タグなどを、指定仕様に沿ってラベリングします。
タイムスタンプ付与・発話単位の整備
発話開始・終了時刻の記録、発話区切りの整備など、学習に適した粒度へ整えます。
日本語データ整備
表記統一、ラベル付け、Excel・CSV形式での整理など、AI開発に使える形へ日本語データを整えます。
教師データ作成
AIに学習させるための「正解データ」を作成します。音声と正解テキスト、質問と回答、分類ラベルなどを整備します。
評価データ作成・AI出力評価
AIの精度検証用テストデータの作成、AI出力(文字起こし・要約・回答)の人手評価を行います。
分類・ラベリング・クリーニング
FAQ分類、意図分類、感情ラベリング、重複・誤字・表記ゆれの修正などに対応します。
PROCESS
品質は、工程でつくる
「人がやるから高品質」ではなく、品質が再現される工程を設計します。仕様のすり合わせから納品後の改善まで、すべての案件で同じ流れを回します。
仕様策定
仕様書のドラフトを確認します。表記ルール、判断に迷うケースの扱い、納品形式を擦り合わせ、誰が作業しても同じ結果になる状態を先に作ります。
トライアル
小ロットで実施し、認識のズレを納品前に検出します。フィードバックを仕様書に反映してから本番に入るため、本番での手戻りを最小化できます。
本番運用
作業者とレビュアーの二層体制で処理します。約800名のライターネットワークから案件特性に合う人員をアサインし、進捗を定期共有します。
検収・改善
納品前チェックを経てお渡しします。検収結果や仕様変更は次ロットに反映し、継続案件ほど品質が安定する運用を行います。
TRACK RECORD
数字で見る対応力
AI開発向けデータ作成の処理実績と、文字起こし事業を含む累計実績です。
AI DATA
2,000分超/日
AI開発向け 日次処理実績
AI DATA
1,000時間/月
大規模案件 月間対応実績
TOTAL
15,857名超
累計利用者数
TOTAL
123,077件超
累計対応件数
TOTAL
1,539万分超
累計対応分数
CASE STUDIES
対応事例
大規模AI開発から研究機関、専門領域まで。
弊社で対応した案件の一部をご紹介します。
音声認識AI向けアノテーション業務を担当。専用システム上で1音声あたり約20秒の短尺タスクを順次処理し、音声アノテーションと品質レビューを実施。専任チーム体制で継続運用しています。
大規模案件対応力/短納期・大量処理/人手による品質管理体制
2,000分超/日
日次処理
1,000時間/月
月間規模
研究用途の音声データに対するアノテーション・データ整備を担当。発話開始・終了時間、発話者、発言内容を指定仕様に沿ってラベリングし、研究用データセットを作成。指定フォーマットで納品しています。
研究・学術領域対応力/仕様遵守/長期継続運用
2020年〜
継続対応
1,000分/月
月次での整備量
海外レース現場の無線音声をAI学習用データとして整備。数秒〜数十秒の短尺音声に対し、発話のままでの表記・整文での表記の2種類の表記ルールでデータ化。イギリス英語・専門用語・無線特有の不明瞭音声に対応しました。
英語音声対応力/専門領域対応力/難易度の高い音声処理
7,000分超
累計整備量
約1年間
継続対応
DOMAINS
対応領域
幅広いAI開発領域の日本語データ整備に対応します。
GETTING STARTED
始め方
仕様が固まっていない段階からご相談いただけます。料金は、データの種類・分量・仕様・納期に応じた個別見積もりです。
STEP 1 — 当日〜2営業日
相談・ヒアリング
目的・データの種類・規模感を伺います。サンプルデータがあれば対応可否と概算をすぐにご案内できます。
STEP 2 — 〜1週間
仕様策定・お見積もり
仕様書ドラフトを当社で作成し、すり合わせのうえお見積もりを提示します。NDA締結にも対応します。
STEP 3
トライアル → 本番
小ロットのトライアルで認識を合わせてから本番運用へ。数十時間規模のPoCからお受けします。
「まずは20〜50時間分だけ試したい」というご相談が、実際の案件の入り口として最も多いパターンです。
FAQ
よくあるご質問
最小発注量はありますか?
最小発注量は定めておりません。仕様確認のための小ロットトライアルのみのご依頼もご相談ください。
料金の目安を教えてください。
目安としては350円/分前後が弊社での学習用データ作成の平均となっております。データの種類・分量・仕様の複雑さ・納期に応じた個別見積もりです。サンプルデータと要件をいただければ、概算を迅速にご案内します。
秘密保持契約(NDA)には対応していますか?
対応しています。機密性の高い音声データ・研究データ・業務データについては、取り扱いルールを確認したうえで作業体制を設計します。
納品形式は指定できますか?
Excel・CSV・JSON・テキストなど、指定フォーマットでの納品実績があります。貴社のシステム上での納品も可能です。既存のデータパイプラインに合わせた形式をご指定ください。
英語など日本語以外の音声にも対応できますか?
英語音声の対応実績があります(イギリス英語・専門用語を含む無線音声のデータ整備など)。その他10カ国後にも対応可能です。言語・内容により対応可否を個別にご案内します。
納期はどのくらいかかりますか?
分量と仕様によりますが、日次2,000分超を処理できる体制があります。短納期のご相談も、まずは規模感とあわせてお問い合わせください。
高い水準でお客様のプライバシーを厳守いたします
コエラボでは、音声認識AI教師データ作成や、アノテーション作業にも対応しております。
約800名の書き起こしライターが、大量の音声や急ぎのご依頼にも迅速に対応しており 安心のクオリティにてお届けしております。
発話情報判別、タイムスタンプの表記、タグ付け等の表記など、さまざまなフォーマットにも対応実績があり お客さまの用途に合わせたファイル形式・起こし方にてご案内いたします。
ISO 27001認証も取得しておりますのでセキュリティも安心です
AI学習用 文字起こしこしについて
音声認識用のアノテーション(タグ付け)作成
テキストの表記ルール、関係性やカテゴリーなど、誰でも判別できる仕様やルールを作成します。 音声データの編集などの教師データの前処理を行います。 最適なプロジェクト体制のもと、優秀なアノテータ―を動員して高品質なアノテーションを行います。 定期的に行われるAIモデル更新時のアノテーションを行います。
高品質
弊社のアノテーターは、文字起こしのベテランや厳しい審査を通った方、医療や科学技術分野の専門家など、多くのアノテーターが在籍しています。幅広い分野をカバーしており、ご依頼内容に合った人員をアサインします。また、私たちは、音声の専門家集団です。これまで、あらゆる環境下のあらゆる場面で発話された音声を扱ってまいりました。一般の方々ではとらえられない音声の非常に細かな特徴も聞き分けることが可能です。
弊社の文字起こしサービス「コエラボ」では、累計8,000万分以上のご依頼を取り扱ってきました。その管理ノウハウを継承して、お客様のご依頼を丁寧かつ迅速にお取り扱いいたします。
柔軟な対応
ご依頼内容に合ったアノテーターを必要人数分、1週間以内にアサインし、アノテーションをスタートすることが可能です。
また、年間約1万件を取り扱う文字起こしサービスの業務ノウハウにより、イレギュラーなご依頼にも対応いたします。
ソリューション例
ご依頼内容の一例です。 貴社のご要望に合わせてご対応いたします。お気軽にご相談ください。
- 長い音声会話の書き起こし
- ご指定の書類フォーマットへのご対応
- 特定話者の文字起こし
- 発話データの収集
- 会話の重なりや沈黙の表記
- ローマ字、カタカナでの文字起こし
- タグの付与
- 同日に複数の音源をご依頼の場合は合算した分数でのご案内となります。 (60分と90分の音声を同日に合わせてご依頼いただいた場合は150分での納期設定となります)
- 繁忙期などご注文が混み合っている状態の際には、上記の納期表よりも日数をいただく可能性がございます。
- 医療系等の内容が高い案件に関しては+165円/分(税抜価格150円/分)の料金をいただいております。
- 非常に高度な内容の場合は正しい内容での提供ができない場合がございます。(音声データの他に参考資料をご提出いただくとスムーズです)
- 「音質が悪い場合」「話者が早口な場合」など、作業負担料として追加料金をいただく場合がございます。
- 「原稿の修正作業量」によって作業後納品前に、追加料金(作業負担料)のご相談をさせていただく場合がございま す。(原稿の精度を保証するものではございません)