データセット

汎用マルチモーダル音声ビデオデータベース

種族：中国人

数量（人）：500

詳細：1人100文ずつ録音する。一方の携帯電話を使ってビデオを録画し、もう一方の携帯電話を使ってオーディオ+マイクサウンドカードを録画します。3つのデバイスが同時に録画され、時間同期が行われました。人のIDは同87-1

詳細の表示

感情マルチモーダル音声ビデオデータベース

種族：中国人

数量（人）：500

詳細：それぞれ7種類の感情の異なる3つの文を録音し、それぞれ21の異なる文を録音した。一方の携帯電話を使ってビデオを録画し、もう一方の携帯電話を使ってオーディオ+マイクサウンドカードを録画します。3つのデバイスが同時に録画され、時間同期が行われました。人のIDは同87-1

詳細の表示

汎用マルチモーダル音声ビデオデータベース

タイプ：マルチモード

数量（人）：500

詳細：1人100文を約6～10分録音

詳細の表示

情緒マルチモーダル音声ビデオデータベース

タイプ：マルチモード

数量（人）：500

詳細：1人7種類の感情、1つの感情に3つの異なる文。1人に21個の異なる文があります。

詳細の表示

中国語-共通語-子供の音声データセット

朗読する

10060 人

1105.2 時間

詳細の表示

写真攻撃データベース

種族：アフリカ人2000中央アジア人2000中国人2000

数量（人）：6000

詳細：1人10本のビデオ：2本の実写ビデオ、8本の写真攻撃ビデオ写真を印刷し、それぞれ目、鼻、口の領域を漏らして攻撃ビデオを録画する

詳細の表示

中国語-共通語-生放送音声データセット

しぜんげんご

実際のライブ環境

5079 時間

詳細の表示

スクリーン、布攻撃データベース

3,000人

45,000ビデオ

アフリカ人、中央アジア人、東アジア人

詳細の表示

英語-米国-カスタマーサービス音声データセット

タイプ：自然言語

実際のカスタマーサービス環境

よく話す（時間）：287 小时

詳細の表示

マスク攻撃データベース

1,000人

4000本のビデオ

異なるライティング

詳細の表示

中国語共通語と英語-混話音声データセット

タイプ：読み上げ

数量：8477 人

よく話す（時間）：4089 小时

詳細の表示

顔の不正防止データベース

1,000人

243600セグメントビデオ

異なるライティング

詳細の表示

英語-北米音声データセット

タイプ：読み上げ

数量：1935 人

よく話す（時間）：865 小时

詳細の表示

多人種3 D多表情人の顔認識データベース

8400 人

2T

20か国以上と異なる民族をカバー

詳細の表示

中央アジア人3 D多姿勢顔認識データベース

3000 人

1人1枚の証明写真+6段のビデオ

左に曲がって、右に曲がって、上に頭を上げて、下に頭を下げて、眼鏡をかけて、頭に丸をつけます

詳細の表示

中英児童音声データセット

中英

217 時間

1,000 講演者

詳細の表示

アフリカ人3 D多姿勢人の顔認識データベース

3000 人

1人1枚の証明写真+6段のビデオ

左に曲がって、右に曲がって、上に頭を上げて、下に頭を下げて、眼鏡をかけて、頭に丸をつけます

詳細の表示

共通語-中国児童音声データセット

共通語-中国

1,105 時間

10,060 講演者

詳細の表示

中国人の3 D多姿勢顔認識データベース

10000 人

1人1枚の証明写真+6段のビデオ

左に曲がって、右に曲がって、上に頭を上げて、下に頭を下げて、眼鏡をかけて、頭に丸をつけます

詳細の表示

南アジアインド人3 D多姿勢顔認識データベース

2000人

1人1枚の証明写真+6段のビデオ

正面、左回り、右回り、上上がり、下下がり、頭回り

詳細の表示

ジェスチャ認識データベース

種族：中国人

数量（人）：500

詳細：防犯カメラとRGB-Dのカメラを使って転倒や他の20種類の一般的な動作を収集します。人のIDは同87-1

詳細の表示

自動運転ポイントクラウドデータベース

数量（人）：1200000框

詳細：データは中国国内で収集され、総フレーム数は7万フレームで、ビデオで切り取られた秒フレームである。表示されている3 D矩形枠は120万個。表示されているオブジェクトのカテゴリには、car、bus、trcuk、van、pedestrian、tricycle、cyclist

詳細の表示

ヘッダ姿勢データベース

種族：中国人200白人200黒人200南アジア人200その他の地域200

数量（人）：1000

詳細：各収集者はFaceShiftソフトウェアを使用してヘッドモデル（10〜20個の表情の記録を含む）を構築し、それから録画されたビデオの解像度は640 X 480で、ビデオの中で収集された人は左回り、右回り、頭を上げ、頭を下げ、頭を左に曲げ、頭を右に曲げ、頭をM字にするなどの動作を行った。ビデオの長さは4～7分です。注釈内容：導出された結果には、RGBビデオとフレームごとの画像のヘッダのポーズが含まれ、yaw、pitch、rollの角度値が含まれています。

詳細の表示

傍観者顔データベース

種族：中国人200白人200黒人200南アジア人200その他の地域200

数量（人）：1000

詳細：1000人は180グループに分けられ、1グループ4-6人は3種類の光条件の下で50-69枚の画像を収集し、合計12000枚の画像を収集し、各光条件の下で1つのビデオを撮影し、180 X 3段のビデオを撮影し、写真を撮影した全過程の画像解像度：4000 X 3000、ビデオ分解能1080 P表示内容：各画像の中で、人の顔を表示する矩形枠、7つのキーポイント、被写体ID、性別、種族を記録した。

詳細の表示