Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment

Rohan Pandey, Rulin Shao, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency. Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment. ACL 2023