Comments (14)
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。由于处理后的数据占用空间过大,可能没法以网盘的形式提供。如果你有办法解决传输问题,我们很乐意提供这部分数据。或者我们也可以提供你处理时感觉最耗时的部分数据。
from eat_code.
非常感谢您的回复,我有几个问题需要向您请教一下:
1.我处理出来的imgs数据包含了3.6T导致其他数据处理时间都会变长。您的只有647G,想问一下是我的源数据出现了问题吗?
2.方便的话,我想问一下deepfeature32,bbox,voxs_wavs的数据能否分享一下?
万分感激
from eat_code.
- img图片大小不一样,大概率是ffmpeg的crf值不一样导致的,参考这里。在我处理数据的时候没有设置crf,但设置crf为10处理出来的图片质量更好,相应的花费的存储更多。
- vox_wavs就是这里的输出,应该在提取视频的同时提取好了,你找找。bbox的提取代码在这里。deepfeature32大约有70+G,等我传上百度云后再回复你。
from eat_code.
你好,可以从下面的链接中下载,然后cat成deepfeature32.tar.gz后解压
链接:https://pan.baidu.com/s/1D4Dm7-25bselG8hpTiNByg?pwd=6n8n
提取码:6n8n
from eat_code.
您好,万分感谢您的无私分享,感谢您的工作
from eat_code.
😉
from eat_code.
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。由于处理后的数据占用空间过大,可能没法以网盘的形式提供。如果你有办法解决传输问题,我们很乐意提供这部分数据。或者我们也可以提供你处理时感觉最耗时的部分数据。
作者您好,可不可以提供预处理后的Vox文件夹目录树。Vox原始数据使用三级目录存储mp4文件,我是否应该保留原始目录结构;还是根据id和文件夹名将处理后的mp4文件重命名为voxselect 中的格式?
from eat_code.
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。由于处理后的数据占用空间过大,可能没法以网盘的形式提供。如果你有办法解决传输问题,我们很乐意提供这部分数据。或者我们也可以提供你处理时感觉最耗时的部分数据。
作者您好,可不可以提供预处理后的Vox文件夹目录树。Vox原始数据使用三级目录存储mp4文件,我是否应该保留原始目录结构;还是根据id和文件夹名将处理后的mp4文件重命名为voxselect 中的格式?
你好,我是把视频重命名之后全放到一个文件夹下面的,中间加'_',便于preprocess,比如“id00530_9EtkaLUCdWM_00026.mp4”一共有约213400个视频。
from eat_code.
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。由于处理后的数据占用空间过大,可能没法以网盘的形式提供。如果你有办法解决传输问题,我们很乐意提供这部分数据。或者我们也可以提供你处理时感觉最耗时的部分数据。
作者您好,可不可以提供预处理后的Vox文件夹目录树。Vox原始数据使用三级目录存储mp4文件,我是否应该保留原始目录结构;还是根据id和文件夹名将处理后的mp4文件重命名为voxselect 中的格式?
你好,我是把视频重命名之后全放到一个文件夹下面的,中间加'_',便于preprocess,比如“id00530_9EtkaLUCdWM_00026.mp4”一共有约213400个视频。
你好,作者,我在百度网盘下载的Vox2数据集,合并解压之后,在dev文件夹下面有5994个id,总共有1092009个视频。为什么视频的数量和你说的差别这么大
from eat_code.
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。由于处理后的数据占用空间过大,可能没法以网盘的形式提供。如果你有办法解决传输问题,我们很乐意提供这部分数据。或者我们也可以提供你处理时感觉最耗时的部分数据。
作者您好,可不可以提供预处理后的Vox文件夹目录树。Vox原始数据使用三级目录存储mp4文件,我是否应该保留原始目录结构;还是根据id和文件夹名将处理后的mp4文件重命名为voxselect 中的格式?
你好,我是把视频重命名之后全放到一个文件夹下面的,中间加'_',便于preprocess,比如“id00530_9EtkaLUCdWM_00026.mp4”一共有约213400个视频。
你好,作者,我在百度网盘下载的Vox2数据集,合并解压之后,在dev文件夹下面有5994个id,总共有1092009个视频。为什么视频的数量和你说的差别这么大
你好,因为做这个项目的时间有点久中间经过了几个版本,有些数据处理的细节记不太清了。原因应该是为了保证生成视频人脸的质量,我们对数据做了一下过滤。当时应该是用人脸估计模型检测了一下第一帧中的人脸,然后根据人脸大小和清晰度对数据集做了筛选,所以数量会少很多。我们最后只用了网盘中的213400个视频训练。很抱歉,我忘了在readme中说明这一点,现在已经加上了。
我们这个数据清洗策略也不是很完美,如果有更好的策略或者更清晰的数据,效果应该能更上一层楼。
from eat_code.
感谢关注,VoxCeleb这部分数据确实比较难处理,直接用preprocess的代码会因为在不同的任务之间切换,比较慢,我们当时是用多线程多gpu分批处理的每个任务。 由于处理后的数据占用空间过大,可能没法以网盘的形式提供。 如果你有办法解决传输问题,我们很乐意提供这部分数据。 或者我们也可以提供你处理时感觉最耗时的部分数据。
作者您好,可不可以提供预处理后的Vox文件夹目录树。 Vox原始数据使用三级目录存储mp4文件,我是否应该保留原始目录结构; 还是根据id和文件夹名将处理后的mp4文件重命名为voxselect 中的格式?
你好,我是把视频重命名之后全放到一个文件夹下面的,中间加'_',便于preprocess,比如“id00530_9EtkaLUCdWM_00026.mp4”一共有约213400个视频。
你好,作者,我在百度网盘下载的Vox2数据集,合并解压之后,在dev文件夹下面有5994个id,总共有1092009个视频。 为什么视频的数量和你说的差别这么大
你好,因为做这个项目的时间有点久中间经过了几个版本,有些数据处理的细节记不太清了。 原因应该是为了保证生成视频人脸的质量,我们对数据做了一下过滤。 当时应该是用人脸估计模型检测了一下第一帧中的人脸,然后根据人脸大小和清晰度对数据集做了筛选,所以数量会少很多。 我们最后只用了网盘中的213400个视频训练。 很抱歉,我忘了在readme中说明这一点,现在已经加上了。 我们这个数据清洗策略也不是很完美,如果有更好的策略或者更清晰的数据,效果应该能更上一层楼。
你好,我这边没有进行清洗,直接对原始的数据进行的预处理,想问一下能否提供一下清洗后的视频数据,或者数据列表
from eat_code.
你好,那个deepfeature32.tar.gz里就有我们的数据列表。如果你自己洗一下可能效果更好,因为我们的voxceleb在处理时没设置crf=10。
from eat_code.
请问预处理的latent_extractor是否需要使用adaptive_scale呢,我发现推理代码中使用了这个策略,但是预处理提取latent的时候似乎没有使用这个策略。
from eat_code.
请问预处理的latent_extractor是否需要使用adaptive_scale呢,我发现推理代码中使用了这个策略,但是预处理提取latent的时候似乎没有使用这个策略。
您好,感谢关注。直接从视频中提取latent不需要使用adaptive_scale(也没有。。。), 这个策略是为了输出的latent和原图片latent keypoints在scale层面一致才使用的,只在测试lrw的时候使用了,以保证neutral talking-head的生成结果和原图的一致性。提取数据的时侯latent的scale是一致的,不需要管这个。
from eat_code.
Related Issues (20)
- RuntimeError: The size of tensor a (165) must match the size of tensor b (66) at non-singleton dimension 1 on my training dataset HOT 1
- AssertionError: Caught AssertionError in DataLoader worker process 0. HOT 2
- 关于训练收敛的问题 HOT 3
- How to edit with text and interpolate states as described in the paper? HOT 2
- Would it be complicated to add eyeblinking reference videos? HOT 1
- No discriminator in the state-dict. Dicriminator will be randomly initialized load optimizer_a2kp failed, train it from scratch HOT 5
- ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part. HOT 2
- Generated Video Background Is Not Static HOT 3
- Any way support for Chinese audio? HOT 3
- 3D Keypoint Enhancement Training HOT 2
- Details about CLIP fine-tuning and zero-shot text-guided editing HOT 11
- FileNotFoundError: Package has no location <module 'imageio_ffmpeg.binaries' (namespace)> HOT 2
- Inquiry Source Data Preparation HOT 2
- Error in saving .npy file HOT 2
- How to generate files for custom audio? HOT 4
- 关于预训练使用的权重 HOT 3
- mead数据压缩问题 HOT 1
- Inquiry Regarding Preprocessing VOX2 and MEAD Dataset for Training HOT 8
- Fail to get output from demo.py HOT 2
- Can anyone share TED-Talk dataset?
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from eat_code.