对于每一个current sentence使用CLIP model计算这句话和对应图像的cosine similarity作为reward,最后构成< current sentence, reward,next sentence, Image>的四元组作为 ...