• [x] 重构代码结构:define class Trainer, auto out to log, shell excute, add model checkpoint
  • [x] 目前用DataParallel进行多卡并行,考虑增加distributed选项
  • [x] 先用sample data(2000 train data)观察模型能否收敛
  • [x] 再在full data上训练
  • [x] 考虑VST的输出是否可池化为序列特征并用LSTM或其他模型进一步学习(经过VST传播后得到的特征会不会over-smoothing?)
  • [x] VST的输出通过公共空间映射直接多模态对比学习
  • [x] 对于音频特征,先简单当作图像任务用SwinT进行初步训练
  • [x] 将音频特征的频率特征视为序列特征额外学习一组特征和图像特征拼接(或者做cross-attn?),待思考
  • [x] 音频信号强度特征作为1D vector处理(Phase2)
  • [x] Audio-Video的特征进行对齐(用Learning Alignment的方法): 方法已更新(Phase3)