Detail publikace
Diffuse or Confuse: A Diffusion Deepfake Speech Dataset
deepfakes, deepfake řeč, dataset, difúze, detekce
Pokroky v oblasti umělé inteligence a strojového učení výrazně zlepšily
generování syntetické řeči. Tento článek zkoumá difuzní modely, novou metodu pro
vytváření realistické syntetické řeči. Vytváříme difuzní datovou sadu pomocí
dostupných nástrojů a předem natrénovaných modelů. Kromě toho tato studie hodnotí
kvalitu difuzně generovaných deepfake oproti nedifuzním a jejich potenciální
hrozbu pro současné systémy detekce deepfake. Zjištění ukazují, že detekce
deepfakes založených na difúzi je obecně srovnatelná s nedifúzními deepfakes,
s určitou variabilitou v závislosti na architektuře detektoru. Překódování pomocí
difuzních vokodérů vykazuje minimální dopad a celková kvalita řeči je srovnatelná
s nedifuzními metodami.
@inproceedings{BUT189345,
author="Anton {Firc} and Kamil {Malinka} and Petr {Hanáček}",
title="Diffuse or Confuse: A Diffusion Deepfake Speech Dataset",
booktitle="2024 International Conference of the Biometrics Special Interest Group (BIOSIG)",
year="2024",
pages="1--7",
publisher="GI - Group for computer science",
address="Darmstadt",
doi="10.1109/BIOSIG61931.2024.10786752",
isbn="978-3-88579-749-4",
url="https://ieeexplore.ieee.org/document/10786752"
}