プレスリリース 2024.08.22

音声認識AIの教師データ「audioコーパスデータセット」にて、新しい会話区分『職業面談』のデータセットの先行販売を開始

リリース発行企業：audioコーパス株式会社

情報提供：

これにより、データセットの提供時間数は150時間を超えますので、AIに学習させるデータをゼロから作成する手間が省け、必要な会話区分に沿ったAI開発をスピーディーに進めることができるようになります。

audioコーパスデータセットとは
audioコーパスデータセットは、音声とテキストをセットにした発話データとなります。
AI学習の要件に合わせ、既にタグなどを付与した整形データのため、そのまま開発にご利用いただけるデータ構造となっています。

※音声データ：wavファイル／テキストデータ：csvファイル、txtファイル、eafファイル　にてご提供します

＜音声データ仕様＞
- 会話区分（営業商談、コールセンター、対談、面談など）によるリアルな会話を収録
- 一対一の会話において、RとLでチャンネルを分けたステレオ収録
- 著作権や個人情報などの人の声に関する権利関係を整理（※本人の許諾なく声を使用することは固く禁じられています）

■audioコーパスデータセットの３つの強み

＜テキストデータ仕様＞
- 相づちやどもりなども、忠実にすべて書き起こし
- フィラー、言い間違いなどの抽出に、６つのタグを付与
- 発話ごとに区間を区切り、細かく発話を利用・分析することが可能

■「日本語話し言葉コーパス」(CSJ）の仕様に準じたタグ付与

■「記者ハンドブック」(共同通信社発刊）の仕様に準じた日本語表記
日本語文章は、表記ゆれ、誤字脱字、聞き間違いなど気にすべき点が多数あります。
audioコーパスでは「記者ハンドブック」(共同通信社発刊）を採用し、表記ルールを徹底しています。

【リリースの背景】
発話データは権利フリーのものが市場にほとんど存在しません。
理由として、人の声というのは「個人情報」としても扱われ、許諾なく使用することができないことが挙げられます。
そのため、システム開発において発話データが必要になった際は、音声データを自前で調達し、またそれを一から書き起こさなければなりません。

一方で、発話データを学習させる際は「表記のゆらぎ」など気にかけなければいけないことも多く、品質を高めるためには手間と時間がかかります。

そんな課題を解決するため、発話データの製作所として、ニーズを調査し、必要なデータセットを販売しているのがaudioコーパス株式会社です。
今回リリースする『面談』のデータセットは、自然発話が多く、汎用性も高くて扱いやすいデータとなっています。
【こんな方におすすめ】
- 音声認識AIシステムを開発していて、学習用データが必要な方
- システムの提供先（利用目的）に変化が生じ、別の会話カテゴリが必要になった方
- 人の声のデータを探している方
- コーパスデータを探している方
- 自然発話を分析・研究されている方

【購入の流れ】

※会話テーマにより、お好きなカテゴリをお選びいただけます

商品はすべてサンプルをご提供できますので、ご興味をお持ちの方は「お問い合わせ」画面より、
お申し付けいただければ幸いです。

audioコーパス株式会社では、音声認識AIのさらなる利便性向上に取り組みます。
企業概要
audioコーパス株式会社
代表者：森井直哉
所在地：東京都豊島区西池袋2-37-4 IKE・Biz 4F
事業内容：アノテーションデータ製作ならび販売、請負作成、作成支援

企業Webサイト：https://www.otocorpus.com/

■取材のお申し込み
本リリースに関する取材のお申し込み、また製品・サービスに関するお問い合わせは下記までご連絡ください。
お問い合わせフォーム : こちらからお問い合わせください
Email：contact@otocorpus.com