ICCV 2021论文列表 - 2021 IEEE/CVF International Conference on Computer Vision, ICCV 2021, Montreal, QC, Canada, October 10-17, 2021.| 数据学习 (DataLearner)

iccv 2021 论文列表

2021 IEEE/CVF International Conference on Computer Vision, ICCV 2021, Montreal, QC, Canada, October 10-17, 2021.

PointBA: Towards Backdoor Attacks in 3D Point Cloud.

Xinke Li Zhirui Chen Yue Zhao Zekun Tong Yabang Zhao Andrew Lim Joey Tianyi Zhou

Black-box Detection of Backdoor Attacks with Limited Information and Data.

Yinpeng Dong Xiao Yang Zhijie Deng Tianyu Pang Zihao Xiao Hang Su Jun Zhu

Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective.

Yi Zeng Won Park Z. Morley Mao Ruoxi Jia

Invisible Backdoor Attack with Sample-Specific Triggers.

Yuezun Li Yiming Li Baoyuan Wu Longkang Li Ran He Siwei Lyu

CLEAR: Clean-up Sample-Targeted Backdoor in Neural Networks.

Liuwan Zhu Rui Ning Chunsheng Xin Chonggang Wang Hongyi Wu

Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make Student Better.

Bojia Zi Shihao Zhao Xingjun Ma Yu-Gang Jiang

Defending against Universal Adversarial Patches by Clipping Feature Norms.

Cheng Yu Jiansheng Chen Youze Xue Yuyang Liu Weitao Wan Jiayu Bao Huimin Ma

Low Curvature Activations Reduce Overfitting in Adversarial Training.

Vasu Singla Sahil Singla Soheil Feizi David Jacobs

Practical Relative Order Attack in Deep Ranking.

Mo Zhou Le Wang Zhenxing Niu Qilin Zhang Yinghui Xu Nanning Zheng Gang Hua

Cross-Modality Person Re-Identification via Modality Confusion and Center Aggregation.

Xin Hao Sanyuan Zhao Mang Ye Jianbing Shen

A Simple Baseline for Weakly-Supervised Scene Graph Generation.

Jing Shi Yiwu Zhong Ning Xu Yin Li Chenliang Xu

From General to Specific: Informative Scene Graph Generation via Balance Adjustment.

Yuyu Guo Lianli Gao Xuanhan Wang Yuxuan Hu Xing Xu Xu Lu Heng Tao Shen Jingkuan Song

Spatial-Temporal Transformer for Dynamic Scene Graph Generation.

Yuren Cong Wentong Liao Hanno Ackermann Bodo Rosenhahn Michael Ying Yang

Unconditional Scene Graph Generation.

Sarthak Garg Helisa Dhamo Azade Farshad Sabrina Musatian Nassir Navab Federico Tombari

Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs.

Helisa Dhamo Fabian Manhardt Nassir Navab Federico Tombari

Few-Shot Visual Relationship Co-Localization.

Revant Teotia Vaibhav Mishra Mayank Maheshwari Anand Mishra

Salient Object Ranking with Position-Preserved Attention.

Hao Fang Daoxin Zhang Yi Zhang Minghao Chen Jiawei Li Yao Hu Deng Cai Xiaofei He

Vision-Language Transformer and Query Generation for Referring Segmentation.

Henghui Ding Chang Liu Suchen Wang Xudong Jiang

Condensing a Sequence to One Informative Frame for Video Recognition.

Zhaofan Qiu Ting Yao Yan Shu Chong-Wah Ngo Tao Mei

Refining Action Segmentation with Hierarchical Video Representations.

Hyemin Ahn Dongheui Lee

Region-aware Contrastive Learning for Semantic Segmentation.

Hanzhe Hu Jinshi Cui Liwei Wang

Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation.

Zhuangwei Zhuang Rong Li Kui Jia Qicheng Wang Yuanqing Li Mingkui Tan

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction.

Guanglei Yang Hao Tang Mingli Ding Nicu Sebe Elisa Ricci

Point Transformer.

Hengshuang Zhao Li Jiang Jiaya Jia Philip H. S. Torr Vladlen Koltun

Adaptive Focus for Efficient Video Recognition.

Yulin Wang Zhaoxi Chen Haojun Jiang Shiji Song Yizeng Han Gao Huang

SurfGen: Adversarial 3D Shape Synthesis with Explicit Surface Discriminators.

Andrew Luo Tianqin Li Wen-Hao Zhang Tai Sing Lee

CTRL-C: Camera calibration TRansformer with Line-Classification.

Jinwoo Lee Hyunsung Go Hyunjoon Lee Sunghyun Cho Min-Hyuk Sung Junho Kim

A Closer Look at Rotation-invariant Deep Point Cloud Analysis.

Feiran Li Kent Fujiwara Fumio Okura Yasuyuki Matsushita

PU-EVA: An Edge-Vector based Approximation Solution for Flexible-scale Point Cloud Upsampling.

Luqing Luo Lulu Tang Wanyi Zhou Shizheng Wang Zhi-Xin Yang

Full-Velocity Radar Returns by Radar-Camera Fusion.

Yunfei Long Daniel D. Morris Xiaoming Liu Marcos Castro Punarjay Chakravarty Praveen Narayanan

Attack as the Best Defense: Nullifying Image-to-image Translation GANs via Limit-aware Adversarial Attack.

Chin-Yuan Yeh Hsi-Wen Chen Hong-Han Shuai De-Nian Yang Ming-Syan Chen

Knowledge-Enriched Distributional Model Inversion Attacks.

Si Chen Mostafa Kahla Ruoxi Jia Guo-Jun Qi

Aha! Adaptive History-driven Attack for Decision-based Black-box Models.

Jie Li Rongrong Ji Peixian Chen Baochang Zhang Xiaopeng Hong Ruixin Zhang Shaoxin Li Jilin Li Feiyue Huang Yongjian Wu

Admix: Enhancing the Transferability of Adversarial Attacks.

Xiaosen Wang Xuanran He Jingdong Wang Kun He

Bayesian Deep Basis Fitting for Depth Completion with Uncertainty.

Chao Qu Wenxin Liu Camillo J. Taylor

Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration.

Soroush Seifi Abhishek Jha Tinne Tuytelaars

The Surprising Effectiveness of Visual Odometry Techniques for Embodied PointGoal Navigation.

Xiaoming Zhao Harsh Agrawal Dhruv Batra Alexander G. Schwing

Auxiliary Tasks and Exploration Enable ObjectGoal Navigation.

Joel Ye Dhruv Batra Abhishek Das Erik Wijmans

LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving.

Alexander Cui Sergio Casas Abbas Sadat Renjie Liao Raquel Urtasun

RAIN: Reinforced Hybrid Attention Inference Network for Motion Forecasting.

Jiachen Li Fan Yang Hengbo Ma Srikanth Malla Masayoshi Tomizuka Chiho Choi

VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction.

Jaesung Choe Sunghoon Im François Rameau Minjun Kang In So Kweon

GP-S3Net: Graph-based Panoptic Sparse Semantic Segmentation Network.

Ryan Razani Ran Cheng Enxu Li Ehsan Taghavi Yuan Ren Bingbing Liu

Variational Attention: Propagating Domain-Specific Knowledge for Multi-Domain Learning in Crowd Counting.

Binghui Chen Zhaoyi Yan Ke Li Pengyu Li Biao Wang Wangmeng Zuo Lei Zhang

Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark.

Kun Wang Zhenyu Zhang Zhiqiang Yan Xiang Li Baobei Xu Jun Li Jian Yang

Self-Supervised Real-to-Sim Scene Generation.

Aayush Prakash Shoubhik Debnath Jean-Francois Lafleche Eric Cameracci Gavriel State Stan Birchfield Marc T. Law

MonteFloor: Extending MCTS for Reconstructing Accurate Large-Scale Floor Plans.

Sinisa Stekovic Mahdi Rad Friedrich Fraundorfer Vincent Lepetit

RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR Point Cloud Segmentation.

Jianyun Xu Ruixiang Zhang Jian Dou Yushi Zhu Jie Sun Shiliang Pu

HRegNet: A Hierarchical Network for Large-scale Outdoor LiDAR Point Cloud Registration.

Fan Lu Guang Chen Yinlong Liu Lijun Zhang Sanqing Qu Shu Liu Rongqi Gu

Interpretation of Emergent Communication in Heterogeneous Collaborative Embodied Agents.

Shivansh Patel Saim Wani Unnat Jain Alexander G. Schwing Svetlana Lazebnik Manolis Savva Angel X. Chang

P2-Net: Joint Description and Detection of Local Features for Pixel and Point Matching.

Bing Wang Changhao Chen Zhaopeng Cui Jie Qin Chris Xiaoxuan Lu Zhengdi Yu Peijun Zhao Zhen Dong Fan Zhu Niki Trigoni Andrew Markham

Deep Hough Voting for Robust Global Registration.

Junha Lee Seungwook Kim Minsu Cho Jaesik Park

Exploiting Scene Graphs for Human-Object Interaction Detection.

Tao He Lianli Gao Jingkuan Song Yuan-Fang Li

Pose Correction for Highly Accurate Visual Localization in Large-scale Indoor Spaces.

Janghun Hyeon JooHyung Kim Nakju Lett Doh

Graspness Discovery in Clutters for Fast and Accurate Grasp Detection.

Chenxi Wang Haoshu Fang Minghao Gou Hongjie Fang Jin Gao Cewu Lu

Episodic Transformer for Vision-and-Language Navigation.

Alexander Pashevich Cordelia Schmid Chen Sun

Context-aware Scene Graph Generation with Seq2Seq Transformers.

Yichao Lu Himanshu Rai Jason Chang Boris Knyazev Guang Wei Yu Shashank Shekhar Graham W. Taylor Maksims Volkovs

Exploring Long Tail Visual Relationship Recognition with Large Vocabulary.

Sherif Abdelkarim Aniket Agarwal Panos Achlioptas Jun Chen Jiaji Huang Boyang Li Kenneth Church Mohamed Elhoseiny

Grounding Consistency: Distilling Spatial Common Sense for Precise Visual Relationship Detection.

Markos Diomataris Nikolaos Gkanatsios Vassilis Pitsikalis Petros Maragos

Topic Scene Graph Generation by Attention Distillation from Caption.

Wenbin Wang Ruiping Wang Xilin Chen

Visual Graph Memory with Unsupervised Representation for Visual Navigation.

Obin Kwon Nuri Kim Yunho Choi Hwiyeon Yoo Jeongho Park Songhwai Oh

Segmentation-grounded Scene Graph Generation.

Siddhesh Khandelwal Mohammed Suhail Leonid Sigal

Exploring Relational Context for Multi-Task Dense Prediction.

David Brüggemann Menelaos Kanakis Anton Obukhov Stamatios Georgoulis Luc Van Gool

Enhanced Boundary Learning for Glass-like Object Segmentation.

Hao He Xiangtai Li Guangliang Cheng Jianping Shi Yunhai Tong Gaofeng Meng Véronique Prinet Lubin Weng

Interaction via Bi-directional Graph of Semantic Region Affinity for Scene Parsing.

Henghui Ding Hui Zhang Jun Liu Jiaxin Li Zijian Feng Xudong Jiang

In-Place Scene Labelling and Understanding with Implicit Scene Representation.

Shuaifeng Zhi Tristan Laidlow Stefan Leutenegger Andrew J. Davison

Generative Compositional Augmentations for Scene Graph Prediction.

Boris Knyazev Harm de Vries Catalina Cangea Graham W. Taylor Aaron C. Courville Eugene Belilovsky

Visual Distant Supervision for Scene Graph Generation.

Yuan Yao Ao Zhang Xu Han Mengdi Li Cornelius Weber Zhiyuan Liu Stefan Wermter Maosong Sun

MGNet: Monocular Geometric Scene Understanding for Autonomous Driving.

Markus Schön Michael Buchholz Klaus Dietmayer

NEAT: Neural Attention Fields for End-to-End Autonomous Driving.

Kashyap Chitta Aditya Prakash Andreas Geiger

Continual Neural Mapping: Learning An Implicit Scene Representation from Sequential Observations.

Zike Yan Yuxin Tian Xuesong Shi Ping Guo Peng Wang Hongbin Zha

The Functional Correspondence Problem.

Zihang Lai Senthil Purushwalkam Abhinav Gupta

H2O: A Benchmark for Visual Human-human Object Handover Analysis.

Ruolin Ye Wenqiang Xu Zhendong Xue Tutian Tang Yanfeng Wang Cewu Lu

Act the Part: Learning Interaction Strategies for Articulated Object Part Discovery.

Samir Yitzhak Gadre Kiana Ehsani Shuran Song

Toward Human-Like Grasp: Dexterous Grasping via Semantic Representation of Object-Hand.

Tianqiang Zhu Rina Wu Xiangbo Lin Yi Sun

Safety-aware Motion Prediction with Unseen Vehicles for Autonomous Driving.

Xuanchi Ren Tao Yang Li Erran Li Alexandre Alahi Qifeng Chen

Learnable Boundary Guided Adversarial Training.

Jiequan Cui Shu Liu Liwei Wang Jiaya Jia

Robustness and Generalization via Generative Adversarial Training.

Omid Poursaeed Tianxing Jiang Harry Yang Serge J. Belongie Ser-Nam Lim

Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation.

Victor Besnier Andrei Bursuc David Picard Alexandre Briot

RobustNav: Towards Benchmarking Robustness in Embodied Navigation.

Prithvijit Chattopadhyay Judy Hoffman Roozbeh Mottaghi Aniruddha Kembhavi

VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection.

Yujun Zhang Lei Zhu Wei Feng Huazhu Fu Mingqian Wang Qingxia Li Cheng Li Song Wang

Multi-View Radar Semantic Segmentation.

Arthur Ouaknine Alasdair Newson Patrick Pérez Florence Tupin Julien Rebut

Structured Bird's-Eye-View Traffic Scene Understanding from Onboard Images.

Yigit Baran Can Alexander Liniger Danda Pani Paudel Luc Van Gool

Road Anomaly Detection by Partial Image Reconstruction with Segmentation Coupling.

Tomas Vojir Tomás Sipka Rahaf Aljundi Nikolay Chumerin Daniel Olmeda Reino Jiri Matas

AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection.

Zongdai Liu Dingfu Zhou Feixiang Lu Jin Fang Liangjun Zhang

Robust 2D/3D Vehicle Parsing in Arbitrary Camera Views for CVIS.

Hui Miao Feixiang Lu Zongdai Liu Liangjun Zhang Dinesh Manocha Bin Zhou

Prediction by Anticipation: An Action-Conditional Prediction Method based on Interaction Learning.

Ershad Banijamali Mohsen Rohani Elmira Amirloo Abolfathi Jun Luo Pascal Poupart

Procedure Planning in Instructional Videos via Contextual Modeling and Model-based Policy Learning.

Jing Bi Jiebo Luo Chenliang Xu

Bifold and Semantic Reasoning for Pedestrian Behavior Prediction.

Amir Rasouli Mohsen Rohani Jun Luo

Learning to drive from a world on rails.

Dian Chen Vladlen Koltun Philipp Krähenbühl

Personalized Trajectory Prediction via Distribution Discrimination.

Guangyi Chen Junlong Li Nuoxing Zhou Liangliang Ren Jiwen Lu

Crowd Counting With Partial Annotations in an Image.

Yanyu Xu Ziming Zhong Dongze Lian Jing Li Zhengxin Li Xinxing Xu Shenghua Gao

Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation.

Rui Peng Ronggang Wang Yawen Lai Luyang Tang Yangang Cai

Spatial Uncertainty-Aware Semi-Supervised Crowd Counting.

Yanda Meng Hongrun Zhang Yitian Zhao Xiaoyun Yang Xuesheng Qian Xiaowei Huang Yalin Zheng

FOVEA: Foveated Image Magnification for Autonomous Navigation.

Chittesh Thavamani Mengtian Li Nicolas Cebron Deva Ramanan

Revealing the Reciprocal Relations between Self-Supervised Stereo and Monocular Depth Estimation.

Zhi Chen Xiaoqing Ye Wei Yang Zhenbo Xu Xiao Tan Zhikang Zou Errui Ding Xinming Zhang Liusheng Huang

Perturbed Self-Distillation: Weakly Supervised Large-Scale Point Cloud Semantic Segmentation.

Yachao Zhang Yanyun Qu Yuan Xie Zonghao Li Shanshan Zheng Cuihua Li

ReDAL: Region-based and Diversity-aware Active Learning for Point Cloud Semantic Segmentation.

Tsung-Han Wu Yueh-Cheng Liu Yu-Kai Huang Hsin-Ying Lee Hung-Ting Su Ping-Chia Huang Winston H. Hsu

Warp-Refine Propagation: Semi-Supervised Auto-labeling via Cycle-consistency.

Aditya Ganeshan Alexis Vallet Yasunori Kudo Shin-ichi Maeda Tommi Kerola Rares Ambrus Dennis Park Adrien Gaidon

VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation.

Zeyu Hu Xuyang Bai Jiaxiang Shang Runze Zhang Jiayu Dong Xin Wang Guangyuan Sun Hongbo Fu Chiew-Lan Tai

Learning Inner-Group Relations on Point Clouds.

Haoxi Ran Wei Zhuo Jun Liu Li Lu

Hierarchical Aggregation for 3D Instance Segmentation.

Shaoyu Chen Jiemin Fang Qian Zhang Wenyu Liu Xinggang Wang

HiFT: Hierarchical Feature Transformer for Aerial Tracking.

Ziang Cao Changhong Fu Junjie Ye Bowen Li Yiming Li

SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation.

Qiangeng Xu Yin Zhou Weiyue Wang Charles R. Qi Dragomir Anguelov

4D-Net for Learned Multi-Modal Alignment.

A. J. Piergiovanni Vincent Casser Michael S. Ryoo Anelia Angelova

Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation.

Sanghun Jung Jungsoo Lee Daehoon Gwak Sungha Choi Jaegul Choo

Rethinking 360° Image Visual Attention Modelling with Unsupervised Learning.

Yasser Abdelaziz Dahou Djilali Tarun Krishna Kevin McGuinness Noel E. O'Connor

Learning of Visual Relations: The Devil is in the Tails.

Alakh Desai Tz-Ying Wu Subarna Tripathi Nuno Vasconcelos

FLAR: A Unified Prototype Framework for Few-sample Lifelong Active Recognition.

Lei Fan Peixi Xiong Wei Wei Ying Wu

Pose Invariant Topological Memory for Visual Navigation.

Asuto Taniguchi Fumihiro Sasaki Ryota Yamashina

THDA: Treasure Hunt Data Augmentation for Semantic Navigation.

Oleksandr Maksymets Vincent Cartillier Aaron Gokaslan Erik Wijmans Wojciech Galuba Stefan Lee Dhruv Batra

Scaling up instance annotation via label propagation.

Dim P. Papadopoulos Ethan Weber Antonio Torralba

Scribble-Supervised Semantic Segmentation Inference.

Jingshan Xu Chuanwei Zhou Zhen Cui Chunyan Xu Yuge Huang Pengcheng Shen Shaoxin Li Jian Yang

PrimitiveNet: Primitive Instance Segmentation with Local Primitive Embedding under Adversarial Metric.

Jingwei Huang Yanfeng Zhang Mingwei Sun

Deep Metric Learning for Open World Semantic Segmentation.

Jun Cen Peng Yun Junhao Cai Michael Yu Wang Ming Liu

Continuous Copy-Paste for One-stage Multi-object Tracking and Segmentation.

Zhenbo Xu Ajin Meng Zhenbo Shi Wei Yang Zhi Chen Liusheng Huang

Hierarchical Disentangled Representation Learning for Outdoor Illumination Estimation and Editing.

Piaopiao Yu Jie Guo Fan Huang Cheng Zhou Hongwei Che Xiao Ling Yanwen Guo

DenseTNT: End-to-end Trajectory Prediction from Dense Goal Sets.

Junru Gu Chen Sun Hang Zhao

LSG-CPD: Coherent Point Drift with Local Surface Geometry for Point Cloud Registration.

Weixiao Liu Hongtao Wu Gregory S. Chirikjian

Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather.

Martin Hahner Christos Sakaridis Dengxin Dai Luc Van Gool

FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras.

Anthony Hu Zak Murez Nikhil Mohan Sofía Dudas Jeffrey Hawke Vijay Badrinarayanan Roberto Cipolla Alex Kendall

Robust Small Object Detection on the Water Surface through Fusion of Camera and Millimeter Wave Radar.

Yuwei Cheng Hu Xu Yimin Liu

BabelCalib: A Universal Approach to Calibrating Central Cameras.

Yaroslava Lochman Kostiantyn Liepieshov Jianhui Chen Michal Perdoch Christopher Zach James Pritts

VSAC: Efficient and Accurate Estimator for H and F.

Maksym Ivashechkin Daniel Barath Jirí Matas

From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting.

Karttikeya Mangalam Yang An Harshayu Girase Jitendra Malik

End-to-End Urban Driving by Imitating a Reinforcement Learning Coach.

Zhejun Zhang Alexander Liniger Dengxin Dai Fisher Yu Luc Van Gool

Globally Optimal and Efficient Manhattan Frame Estimation by Delimiting Rotation Search Space.

Wuwei Ge Yu Song Baichao Zhang Zehua Dong

Indoor Scene Generation from a Collection of Semantic-Segmented Depth Images.

Mingjia Yang Yu-Xiao Guo Bin Zhou Xin Tong

Change is Everywhere: Single-Temporal Supervised Object Change Detection in Remote Sensing Imagery.

Zhuo Zheng Ailong Ma Liangpei Zhang Yanfei Zhong

GRF: Learning a General Radiance Field for 3D Representation and Rendering.

Alex Trevithick Bo Yang

Geometry-based Distance Decomposition for Monocular 3D Object Detection.

Xuepeng Shi Qi Ye Xiaozhi Chen Chuangrong Chen Zhixiang Chen Tae-Kyun Kim

Waypoint Models for Instruction-guided Navigation in Continuous Environments.

Jacob Krantz Aaron Gokaslan Dhruv Batra Stefan Lee Oleksandr Maksymets

Active Learning for Lane Detection: A Knowledge Distillation Approach.

Fengchao Peng Chao Wang Jianzhuang Liu Zhen Yang

GridToPix: Training Embodied Agents with Minimal Supervision.

Unnat Jain Iou-Jen Liu Svetlana Lazebnik Aniruddha Kembhavi Luca Weihs Alexander G. Schwing

Hierarchical Object-to-Zone Graph for Object Navigation.

Sixian Zhang Xinhang Song Yubing Bai Weijie Li Yakui Chu Shuqiang Jiang

Social NCE: Contrastive Learning of Socially-aware Motion Representations.

Yuejiang Liu Qi Yan Alexandre Alahi

ID-Reveal: Identity-aware DeepFake Video Detection.

Davide Cozzolino Andreas Rössler Justus Thies Matthias Nießner Luisa Verdoliva

Multi-Expert Adversarial Attack Detection in Person Re-identification Using Context Inconsistency.

Xueping Wang Shasha Li Min Liu Yaonan Wang Amit K. Roy-Chowdhury

PASS: Protected Attribute Suppression System for Mitigating Bias in Face Recognition.

Prithviraj Dhar Joshua Gleason Aniket Roy Carlos Domingo Castillo Rama Chellappa

Ensemble Attention Distillation for Privacy-Preserving Federated Learning.

Xuan Gong Abhishek Sharma Srikrishna Karanam Ziyan Wu Terrence Chen David S. Doermann Arun Innanje

Adaptive Label Noise Cleaning with Meta-Supervision for Deep Face Recognition.

Yaobin Zhang Weihong Deng Yaoyao Zhong Jiani Hu Xian Li Dongyue Zhao Dongchao Wen

TransForensics: Image Forgery Localization with Dense Self-Attention.

Jing Hao Zhixin Zhang Shicai Yang Di Xie Shiliang Pu

Exploring Temporal Coherence for More General Video Face Forgery Detection.

Yinglin Zheng Jianmin Bao Dong Chen Ming Zeng Fang Wen

Self-supervised Domain Adaptation for Forgery Localization of JPEG Compressed Images.

Yuan Rao Jiangqun Ni

Learning Self-Consistency for Deepfake Detection.

Tianchen Zhao Xiang Xu Mingze Xu Hui Ding Yuanjun Xiong Wei Xia

TransReID: Transformer-based Object Re-Identification.

Shuting He Hao Luo Pichao Wang Fan Wang Hao Li Wei Jiang

Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization.

Wei Zhu Haitian Zheng Haofu Liao Weijian Li Jiebo Luo

BiaSwap: Removing Dataset Bias with Bias-Tailored Swapping Augmentation.

Eungyeup Kim Jihyeon Lee Jaegul Choo

Understanding and Mitigating Annotation Bias in Facial Expression Recognition.

Yunliang Chen Jungseock Joo

Discover the Unknown Biased Attribute of an Image Classifier.

Zhiheng Li Chenliang Xu

ICE: Inter-instance Contrastive Encoding for Unsupervised Person Re-identification.

Hao Chen Benoit Lagadec François Brémond

Towards the Unseen: Iterative Text Recognition by Distilling from Errors.

Ayan Kumar Bhunia Pinaki Nath Chowdhury Aneeshan Sain Yi-Zhe Song

Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition.

Ayan Kumar Bhunia Aneeshan Sain Amandeep Kumar Shuvozit Ghose Pinaki Nath Chowdhury Yi-Zhe Song

Learning Instance-level Spatial-Temporal Patterns for Person Re-identification.

Min Ren Lingxiao He Xingyu Liao Wu Liu Yunlong Wang Tieniu Tan

3D Local Convolutional Neural Networks for Gait Recognition.

Zhen Huang Dixiu Xue Xu Shen Xinmei Tian Houqiang Li Jianqiang Huang Xian-Sheng Hua

Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images.

Zhuowan Li Elias Stengel-Eskin Yixiao Zhang Cihang Xie Quan Tran Benjamin Van Durme Alan L. Yuille

SemIE: Semantically-aware Image Extrapolation.

Bholeshwar Khurana Soumya Ranjan Dash Abhishek Bhatia Aniruddha Mahapatra Hrituraj Singh Kuldeep Kulkarni

LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation.

Ruizhi Shao Gaochang Wu Yuemei Zhou Ying Fu Lu Fang Yebin Liu

Diverse Image Style Transfer via Invertible Cross-Space Mapping.

Haibo Chen Lei Zhao Huiming Zhang Zhizhong Wang Zhiwen Zuo Ailin Li Wei Xing Dongming Lu

Image Harmonization with Transformer.

Zonghui Guo Dongsheng Guo Haiyong Zheng Zhaorui Gu Bing Zheng Junyu Dong

Manifold Alignment for Semantically Aligned Style Transfer.

Jing Huo Shiyin Jin Wenbin Li Jing Wu Yu-Kun Lai Yinghuan Shi Yang Gao

Detection and Continual Learning of Novel Face Presentation Attacks.

Mohammad Rostami Leonidas Spinoulas Mohamed E. Hussein Joe Mathai Wael Abd-Almageed

Robust Watermarking for Deep Neural Networks via Bi-level Optimization.

Peng Yang Yingjie Lao Ping Li

Understanding and Evaluating Racial Biases in Image Captioning.

Dora Zhao Angelina Wang Olga Russakovsky

Membership Inference Attacks are Easier on Difficult Problems.

Avital Shafran Shmuel Peleg Yedid Hoshen

DisUnknown: Distilling Unknown Factors for Disentanglement Learning.

Sitao Xiang Yuming Gu Pengda Xiang Menglei Chai Hao Li Yajie Zhao Mingming He

Joint Audio-Visual Deepfake Detection.

Yipin Zhou Ser-Nam Lim

Painting from Part.

Dongsheng Guo Haoru Zhao Yunhao Cheng Haiyong Zheng Zhaorui Gu Bing Zheng

Benchmarking Ultra-High-Definition Image Super-resolution.

Kaihao Zhang Dongxu Li Wenhan Luo Wenqi Ren Björn Stenger Wei Liu Hongdong Li Ming-Hsuan Yang

Accelerating Atmospheric Turbulence Simulation via Learned Phase-to-Space Transform.

Zhiyuan Mao Nicholas Chimitt Stanley H. Chan

Click to Move: Controlling Video Generation with Sparse Motion.

Pierfrancesco Ardino Marco De Nadai Bruno Lepri Elisa Ricci Stéphane Lathuilière

Pathdreamer: A World Model for Indoor Navigation.

Jing Yu Koh Honglak Lee Yinfei Yang Jason Baldridge Peter Anderson

SLAMP: Stochastic Latent Appearance and Motion Prediction.

Adil Kaan Akan Erkut Erdem Aykut Erdem Fatma Güney

Point-Based Modeling of Human Clothing.

Ilya Zakharkin Kirill Mazur Artur Grigorev Victor Lempitsky

iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis.

Andreas Blattmann Timo Milbich Michael Dorkenwald Björn Ommer

Attention-based Multi-Reference Learning for Image Super-Resolution.

Marco Pesavento Marco Volino Adrian Hilton

Dynamic Cross Feature Fusion for Remote Sensing Pansharpening.

Xiao Wu Ting-Zhu Huang Liang-Jian Deng Tian-Jing Zhang

Neural Image Compression via Attentional Multi-scale Back Projection and Frequency Decomposition.

Ge Gao Pei You Rong Pan Shunyuan Han Yuanyuan Zhang Yuchao Dai Hojae Lee

Deep Edge-Aware Interactive Colorization against Color-Bleeding Effects.

Eungyeup Kim Sanghyeon Lee Jeonghoon Park Somi Choi Choonghyun Seo Jaegul Choo

Unpaired Learning for High Dynamic Range Image Tone Mapping.

Yael Vinker Inbar Huberman-Spiegelglas Raanan Fattal

Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation.

Beibei Lin Shunli Zhang Xin Yu

Dressing in Order: Recurrent Person Image Generation for Pose Transfer, Virtual Try-on and Outfit Editing.

Aiyu Cui Daniel McKee Svetlana Lazebnik

Bridging the Gap between Label- and Reference-based Synthesis in Multi-attribute Image-to-Image Translation.

Qiusheng Huang Zhilin Zheng Xueqi Hu Li Sun Qingli Li

StyleFormer: Real-time Arbitrary Style Transfer via Parametric Style Composition.

Xiaolei Wu Zhihao Hu Lu Sheng Dong Xu

Domain-Aware Universal Style Transfer.

Kibeom Hong Seogkyu Jeon Huan Yang Jianlong Fu Hyeran Byun

Flow-Guided Video Inpainting with Scene Templates.

Dong Lao Peihao Zhu Peter Wonka Ganesh Sundaramoorthi

Training Weakly Supervised Video Frame Interpolation with Events.

Zhiyang Yu Yu Zhang Deyuan Liu Dongqing Zou Xijun Chen Yebin Liu Jimmy S. Ren

Internal Video Inpainting by Implicit Long-range Propagation.

Hao Ouyang Tengfei Wang Qifeng Chen

Towards Complete Scene and Regular Shape for Distortion Rectification by Curve-Aware Extrapolation.

Kang Liao Chunyu Lin Yunchao Wei Feng Li Shangrong Yang Yao Zhao

Parallel Multi-Resolution Fusion Network for Image Inpainting.

Wentao Wang Jianfu Zhang Li Niu Haoyu Ling Xue Yang Liqing Zhang

STRIVE: Scene Text Replacement In Videos.

Vijay Kumar B. G Jeyasri Subramanian Varnith Chordia Eugene Bart Shaobo Fang Kelly Guan Raja Bala

Asymmetric Bilateral Motion Estimation for Video Frame Interpolation.

Junheum Park Chul Lee Chang-Su Kim

EgoRenderer: Rendering Human Avatars from Egocentric Camera Images.

Tao Hu Kripasindhu Sarkar Lingjie Liu Matthias Zwicker Christian Theobalt

Embedding Novel Views in a Single JPEG Image.

Yue Wu Guotao Meng Qifeng Chen

Learning a Sketch Tensor Space for Image Inpainting of Man-made Scenes.

Chenjie Cao Yanwei Fu

OSCAR-Net: Object-centric Scene Graph Attention for Image Attribution.

Eric Nguyen Tu Bui Viswanathan (Vishy) Swaminathan John P. Collomosse

XVFI: eXtreme Video Frame Interpolation.

Hyeonjun Sim Jihyong Oh Munchurl Kim

ELF-VC: Efficient Learned Flexible-Rate Video Coding.

Oren Rippel Alexander G. Anderson Kedar Tatwawadi Sanjay Nair Craig Lytle Lubomir D. Bourdev

Occlusion-Aware Video Object Inpainting.

Lei Ke Yu-Wing Tai Chi-Keung Tang

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image.

Andrew Liu Ameesh Makadia Richard Tucker Noah Snavely Varun Jampani Angjoo Kanazawa

Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data.

Ning Yu Vladislav Skripniuk Sahar Abdelnabi Mario Fritz

Dual Projection Generative Adversarial Networks for Conditional Image Generation.

Ligong Han Martin Renqiang Min Anastasis Stathopoulos Yu Tian Ruijiang Gao Asim Kadav Dimitris N. Metaxas

Latent Transformations via NeuralODEs for GAN-based Image Editing.

Valentin Khrulkov Leyla Mirvakhabova Ivan V. Oseledets Artem Babenko

Collaging Class-specific GANs for Semantic Image Synthesis.

Yuheng Li Yijun Li Jingwan Lu Eli Shechtman Yong Jae Lee Krishna Kumar Singh

EigenGAN: Layer-Wise Eigen-Learning for GANs.

Zhenliang He Meina Kan Shiguang Shan

HeadGAN: One-shot Neural Head Synthesis and Editing.

Michail Christos Doukas Stefanos Zafeiriou Viktoriia Sharmanska

Physics-based Differentiable Depth Sensor Simulation.

Benjamin Planche Rajat Vikram Singh

Towards Vivid and Diverse Image Colorization with Generative Color Prior.

Yanze Wu Xintao Wang Yu Li Honglun Zhang Xun Zhao Ying Shan

ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models.

Jooyoung Choi Sungwon Kim Yonghyun Jeong Youngjune Gwon Sungroh Yoon

Geometry-Free View Synthesis: Transformers and no 3D Priors.

Robin Rombach Patrick Esser Björn Ommer

FastNeRF: High-Fidelity Neural Rendering at 200FPS.

Stephan J. Garbin Marek Kowalski Matthew Johnson Jamie Shotton Julien P. C. Valentin

KiloNeRF: Speeding up Neural Radiance Fields with Thousands of Tiny MLPs.

Christian Reiser Songyou Peng Yiyi Liao Andreas Geiger

Neural Radiance Flow for 4D View Synthesis and Video Processing.

Yilun Du Yinan Zhang Hong-Xing Yu Joshua B. Tenenbaum Jiajun Wu

Animatable Neural Radiance Fields for Modeling Dynamic Human Bodies.

Sida Peng Junting Dong Qianqian Wang Shangzhan Zhang Qing Shuai Xiaowei Zhou Hujun Bao

Unconstrained Scene Generation with Locally Conditioned Radiance Fields.

Terrance DeVries Miguel Ángel Bautista Nitish Srivastava Graham W. Taylor Joshua M. Susskind

Reality Transform Adversarial Generators for Image Splicing Forgery Detection and Localization.

Xiuli Bi Zhipeng Zhang Bin Xiao

Unsupervised Image Generation with Infinite Generative Adversarial Networks.

Hui Ying He Wang Tianjia Shao Yin Yang Kun Zhou

Semantically Robust Unpaired Image Translation for Data with Unmatched Semantics Statistics.

Zhiwei Jia Bodi Yuan Kangkang Wang Hong Wu David Clifford Zhiqiang Yuan Hao Su

LatentCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions.

Oguz Kaan Yüksel Enis Simsar Ezgi Gülperi Er Pinar Yanardag

Toward Spatially Unbiased Generative Models.

Jooyoung Choi Jungbeom Lee Yonghyun Jeong Sungroh Yoon

Cortical Surface Shape Analysis Based on Alexandrov Polyhedra.

Min Zhang Yang Guo Na Lei Zhou Zhao Jianfeng Wu Xiaoyin Xu Yalin Wang Xianfeng Gu

Searching for Controllable Image Restoration Networks.

Heewon Kim Sungyong Baik Myungsub Choi Janghoon Choi Kyoung Mu Lee

SIGNET: Efficient Neural Representation for Light Fields.

Brandon Yushan Feng Amitabh Varshney

Modulated Periodic Activations for Generalizable Local Functional Representations.

Ishit Mehta Michaël Gharbi Connelly Barnes Eli Shechtman Ravi Ramamoorthi Manmohan Chandraker

Neural Strokes: Stylized Line Drawing of 3D Shapes.

Difan Liu Matthew Fisher Aaron Hertzmann Evangelos Kalogerakis

From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network.

Yuxin Wang Hongtao Xie Shancheng Fang Jing Wang Shenggao Zhu Yongdong Zhang

Image Manipulation Detection by Multi-View Multi-Scale Supervision.

Xinru Chen Chengbo Dong Jiaqi Ji Juan Cao Xirong Li

Unaligned Image-to-Image Translation by Learning to Reweight.

Shaoan Xie Mingming Gong Yanwu Xu Kun Zhang

CR-Fill: Generative Image Inpainting with Auxiliary Contextual Reconstruction.

Yu Zeng Zhe Lin Huchuan Lu Vishal M. Patel

Rethinking the Truly Unsupervised Image-to-Image Translation.

Kyungjune Baek Yunjey Choi Youngjung Uh Jaejun Yoo Hyunjung Shim

Aligning Latent and Image Spaces to Connect the Unconnectable.

Ivan Skorokhodov Grigorii Sotnikov Mohamed Elhoseiny

Image Inpainting via Conditional Texture and Structure Dual Generation.

Xiefan Guo Hongyu Yang Di Huang

MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo.

Anpei Chen Zexiang Xu Fuqiang Zhao Xiaoshuai Zhang Fanbo Xiang Jingyi Yu Hao Su

WaveFill: A Wavelet-based Generation Network for Image Inpainting.

Yingchen Yu Fangneng Zhan Shijian Lu Jianxiong Pan Feiying Ma Xuansong Xie Chunyan Miao

PixelSynth: Generating a 3D-Consistent Experience from a Single Image.

Chris Rockwell David F. Fouhey Justin Johnson

Towards Discovery and Attribution of Open-world GAN Generated Images.

Sharath Girish Saksham Suri Sai Saketh Rambhatla Abhinav Shrivastava

GAN-Control: Explicitly Controllable GANs.

Alon Shoshan Nadav Bhonker Igor Kviatkovsky Gérard G. Medioni

GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds.

Zekun Hao Arun Mallya Serge J. Belongie Ming-Yu Liu

Omni-GAN: On the Secrets of cGANs and Beyond.

Peng Zhou Lingxi Xie Bingbing Ni Cong Geng Qi Tian

Sketch Your Own GAN.

Sheng-Yu Wang David Bau Jun-Yan Zhu

FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting.

Rui Liu Hanming Deng Yangyi Huang Xiaoyu Shi Lewei Lu Wenxiu Sun Xiaogang Wang Jifeng Dai Hongsheng Li

Multi-Scale Separable Network for Ultra-High-Definition Video Deblurring.

Senyou Deng Wenqi Ren Yanyang Yan Tao Wang Fenglong Song Xiaochun Cao

Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation.

Weilun Wang Wengang Zhou Jianmin Bao Dong Chen Houqiang Li

TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets.

Yaxing Wang Héctor Laria Mantecon Joost van de Weijer Laura Lopez-Fuentes Bogdan C. Raducanu

Deep Halftoning with Reversible Binary Pattern.

Menghan Xia Wenbo Hu Xueting Liu Tien-Tsin Wong

Learning High-Fidelity Face Texture Completion without Complete Face Texture.

Jongyoo Kim Jiaolong Yang Xin Tong

Diagonal Attention and Style-based GAN for Content-Style Disentanglement in Image Generation and Translation.

Gihyun Kwon Jong Chul Ye

Labels4Free: Unsupervised Segmentation using StyleGAN.

Rameen Abdal Peihao Zhu Niloy J. Mitra Peter Wonka

DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis.

Shulan Ruan Yong Zhang Kun Zhang Yanbo Fan Fan Tang Qi Liu Enhong Chen

Detail Me More: Improving GAN's photo-realism of complex scenes.

Raghudeep Gadde Qianli Feng Aleix M. Martínez

GAN Inversion for Out-of-Range Images with Geometric Transformations.

Kyoungkook Kang Seongtae Kim Sunghyun Cho

Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving.

Mu Cai Hong Zhang Huijuan Huang Qichuan Geng Yixuan Li Gao Huang

Focal Frequency Loss for Image Reconstruction and Synthesis.

Liming Jiang Bo Dai Wayne Wu Chen Change Loy

From Continuity to Editability: Inverting GANs with Consecutive Images.

Yangyang Xu Yong Du Wenpeng Xiao Xuemiao Xu Shengfeng He

Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts.

Song Park Sanghyuk Chun Junbum Cha Bado Lee Hyunjung Shim

VariTex: Variational Neural Face Textures.

Marcel C. Bühler Abhimitra Meka Gengyan Li Thabo Beeler Otmar Hilliges

Learning Generative Models of Textured 3D Meshes from Real-World Images.

Dario Pavllo Jonas Kohler Thomas Hofmann Aurélien Lucchi

Learning to Stylize Novel Views.

Hsin-Ping Huang Hung-Yu Tseng Saurabh Saini Maneesh Singh Ming-Hsuan Yang

Structure-transformed Texture-enhanced Network for Person Image Synthesis.

Munan Xu Yuanqi Chen Shan Liu Thomas H. Li Ge Li

3D Human Texture Estimation from a Single Image with Transformers.

Xiangyu Xu Chen Change Loy

Motion-Aware Dynamic Architecture for Efficient Frame Interpolation.

Myungsub Choi Suyoung Lee Heewon Kim Kyoung Mu Lee

Learned Spatial Representations for Few-shot Talking-Head Synthesis.

Moustafa Meshry Saksham Suri Larry S. Davis Abhinav Shrivastava

Image Synthesis from Layout with Locality-Aware Mask Adaption.

Zejian Li Jingyu Wu Immanuel Koh Yongchuan Tang Lingyun Sun

FashionMirror: Co-attention Feature-remapping Virtual Try-on with Sequential Template Poses.

Chieh-Yun Chen Ling Lo Pin-Jui Huang Hong-Han Shuai Wen-Huang Cheng

Talk-to-Edit: Fine-Grained Facial Editing via Dialog.

Yuming Jiang Ziqi Huang Xingang Pan Chen Change Loy Ziwei Liu

A Latent Transformer for Disentangled Face Editing in Images and Videos.

Xu Yao Alasdair Newson Yann Gousseau Pierre Hellier

Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering.

Bangbang Yang Yinda Zhang Yinghao Xu Yijin Li Han Zhou Hujun Bao Guofeng Zhang Zhaopeng Cui

Image Shape Manipulation from a Single Augmented Training Sample.

Yael Vinker Eliahu Horwitz Nir Zabari Yedid Hoshen

PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering.

Yurui Ren Ge Li Yuanqi Chen Thomas H. Li Shan Liu

Image Synthesis via Semantic Composition.

Yi Wang Lu Qi Ying-Cong Chen Xiangyu Zhang Jiaya Jia

Class Semantics-based Attention for Action Detection.

Deepak Sridhar Niamul Quader Srikanth Muralidharan Yaoxin Li Peng Dai Juwei Lu

CAG-QIL: Context-Aware Actionness Grouping via Q Imitation Learning for Online Temporal Action Localization.

Hyolim Kang Kyungmin Kim Yumin Ko Seon Joo Kim

Efficient Action Recognition via Dynamic Knowledge Propagation.

Hanul Kim Mihir Jain Jun-Tae Lee Sungrack Yun Fatih Porikli

TAM: Temporal Adaptive Module for Video Recognition.

Zhaoyang Liu Limin Wang Wayne Wu Chen Qian Tong Lu

Class-Incremental Learning for Action Recognition in Videos.

Jaeyoo Park Minsoo Kang Bohyung Han

Target Adaptive Context Aggregation for Video Scene Graph Generation.

Yao Teng Limin Wang Zhifeng Li Gangshan Wu

Multi-Modal Multi-Action Video Recognition.

Zhensheng Shi Ju Liang Qianqian Li Haiyong Zheng Zhaorui Gu Junyu Dong Bing Zheng

GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer.

Shuaicheng Li Qianggang Cao Lingbo Liu Kunlin Yang Shinan Liu Jun Hou Shuai Yi

Video Self-Stitching Graph Network for Temporal Action Localization.

Chen Zhao Ali K. Thabet Bernard Ghanem

Learning Action Completeness from Points for Weakly-supervised Temporal Action Localization.

Pilhyeon Lee Hyeran Byun

Elaborative Rehearsal for Zero-shot Action Recognition.

Shizhe Chen Dong Huang

Selective Feature Compression for Efficient Activity Recognition Inference.

Chunhui Liu Xinyu Li Hao Chen Davide Modolo Joseph Tighe

Learning Cross-Modal Contrastive Features for Video Domain Adaptation.

Donghyun Kim Yi-Hsuan Tsai Bingbing Zhuang Xiang Yu Stan Sclaroff Kate Saenko Manmohan Chandraker

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations.

Sanath Narayan Hisham Cholakkal Munawar Hayat Fahad Shahbaz Khan Ming-Hsuan Yang Ling Shao

Assignment-Space-based Multi-Object Tracking and Segmentation.

Anwesa Choudhuri Girish Chowdhary Alexander G. Schwing

A Hybrid Video Anomaly Detection Framework via Memory-Augmented Flow Reconstruction and Flow-Guided Frame Prediction.

Zhian Liu Yongwei Nie Chengjiang Long Qing Zhang Guiqing Li

VidTr: Video Transformer Without Convolutions.

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

Channel Augmented Joint Learning for Visible-Infrared Recognition.

Mang Ye Weijian Ruan Bo Du Mike Zheng Shou

Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos.

Bin Zhao Goutam Bhat Martin Danelljan Luc Van Gool Radu Timofte

Learning to Track Objects from Unlabeled Videos.

Jilai Zheng Chao Ma Houwen Peng Xiaokang Yang

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions.

Yixuan Li Lei Chen Runyu He Zhenzhi Wang Gangshan Wu Limin Wang

Relaxed Transformer Decoders for Direct Action Proposal Generation.

Jing Tan Jiaqi Tang Limin Wang Gangshan Wu

Enriching Local and Global Contexts for Temporal Action Localization.

Zixin Zhu Wei Tang Le Wang Nanning Zheng Gang Hua

Anticipative Video Transformer.

Rohit Girdhar Kristen Grauman

The Spatio-Temporal Poisson Point Process: A Simple Model for the Alignment of Event Camera Data.

Cheng Gu Erik G. Learned-Miller Daniel Sheldon Guillermo Gallego Pia Bideau

Social Fabric: Tubelet Compositions for Video Relation Detection.

Shuo Chen Zenglin Shi Pascal Mettes Cees G. M. Snoek

Discovering Human Interactions with Large-Vocabulary Objects via Query and Multi-Scale Detection.

Suchen Wang Kim-Hui Yap Henghui Ding Jiyan Wu Junsong Yuan Yap-Peng Tan

HAA500: Human-Centric Atomic Action Dataset with Curated Videos.

Jihoon Chung Cheng-hsin Wuu Hsuan-ru Yang Yu-Wing Tai Chi-Keung Tang

Divide and Conquer for Single-frame Temporal Action Localization.

Chen Ju Peisen Zhao Siheng Chen Ya Zhang Yanfeng Wang Qi Tian

Learning Target Candidate Association to Keep Track of What Not to Track.

Christoph Mayer Martin Danelljan Danda Pani Paudel Luc Van Gool

Else-Net: Elastic Semantic Network for Continual Action Recognition from Skeleton Data.

Tianjiao Li Qiuhong Ke Hossein Rahmani Rui En Ho Henghui Ding Jun Liu

Skeleton Cloud Colorization for Unsupervised 3D Action Representation Learning.

Siyuan Yang Jun Liu Shijian Lu Meng Hwa Er Alex C. Kot

AdaSGN: Adapting Joint Number and Model Size for Efficient Skeleton-Based Action Recognition.

Lei Shi Yifan Zhang Jian Cheng Hanqing Lu

AI Choreographer: Music Conditioned 3D Dance Generation with AIST++.

Ruilong Li Shan Yang David A. Ross Angjoo Kanazawa

TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild.

Vida Adeli Mahsa Ehsanpour Ian D. Reid Juan Carlos Niebles Silvio Savarese Ehsan Adeli Hamid Rezatofighi

GeomNet: A Neural Network Based on Riemannian Geometries of SPD Matrix Space and Cholesky Space for 3D Skeleton-Based Interaction Recognition.

Xuan Son Nguyen

Consistency-Aware Graph Network for Human Interaction Understanding.

Zhenhua Wang Jiajun Meng Dongyan Guo Jianhua Zhang Qinfeng (Javen) Shi Shengyong Chen

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition.

Yuxin Chen Ziqi Zhang Chunfeng Yuan Bing Li Ying Deng Weiming Hu

Evidential Deep Learning for Open Set Action Recognition.

Wentao Bao Qi Yu Yu Kong

Learn to Match: Automatic Matching Network Design for Visual Tracking.

Zhipeng Zhang Yihao Liu Xiao Wang Bing Li Weiming Hu

Self-supervised 3D Skeleton Action Representation Learning with Motion Consistency and Continuity.

Yukun Su Guosheng Lin Qingyao Wu

Spatially Conditioned Graphs for Detecting Human-Object Interactions.

Frederic Z. Zhang Dylan Campbell Stephen Gould

Generating Smooth Pose Sequences for Diverse Human Motion Prediction.

Wei Mao Miaomiao Liu Mathieu Salzmann

Motion Prediction using Trajectory Cues.

Zhenguang Liu Pengxiang Su Shuang Wu Xuanjing Shen Haipeng Chen Yanbin Hao Meng Wang

Self-Supervised 3D Face Reconstruction via Conditional Estimation.

Yandong Wen Weiyang Liu Bhiksha Raj Rita Singh

Likelihood-Based Diverse Sampling for Trajectory Forecasting.

Yecheng Jason Ma Jeevana Priya Inala Dinesh Jayaraman Osbert Bastani

Provably Approximated Point Cloud Registration.

Ibrahim Jubran Alaa Maalouf Ron Kimmel Dan Feldman

Square Root Marginalization for Sliding-Window Bundle Adjustment.

Nikolaus Demmel David Schubert Christiane Sommer Daniel Cremers Vladyslav Usenko

Three Steps to Multimodal Trajectory Prediction: Modality Clustering, Classification and Synthesis.

Jianhua Sun Yuxuan Li Haoshu Fang Cewu Lu

M3D-VTON: A Monocular-to-3D Virtual Try-On Network.

Fuwei Zhao Zhenyu Xie Michael Kampffmeyer Haoye Dong Songfang Han Tianxiang Zheng Tao Zhang Xiaodan Liang

PCAM: Product of Cross-Attention Matrices for Rigid Registration of Point Clouds.

Anh-Quan Cao Gilles Puy Alexandre Boulch Renaud Marlet

A General Recurrent Tracking Framework without Real Data.

Shuai Wang Hao Sheng Yang Zhang Yubin Wu Zhang Xiong

CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds.

Yijia Weng He Wang Qiang Zhou Yuzhe Qin Yueqi Duan Qingnan Fan Baoquan Chen Hao Su Leonidas J. Guibas

Box-Aware Feature Enhancement for Single Object Tracking on Point Clouds.

Chaoda Zheng Xu Yan Jiantao Gao Weibing Zhao Wei Zhang Zhen Li Shuguang Cui

Voxel-based Network for Shape Completion by Leveraging Edge Generation.

Xiaogang Wang Marcelo H. Ang Gim Hee Lee

MEDIRL: Predicting the Visual Attention of Drivers via Maximum Entropy Deep Inverse Reinforcement Learning.

Sonia Baee Erfan Pakdamanian Inki Kim Lu Feng Vicente Ordonez Laura E. Barnes

Unlimited Neighborhood Interaction for Heterogeneous Trajectory Prediction.

Fang Zheng Le Wang Sanping Zhou Wei Tang Zhenxing Niu Nanning Zheng Gang Hua

MG-GAN: A Multi-Generator Model Preventing Out-of-Distribution Samples in Pedestrian Trajectory Prediction.

Patrick Dendorfer Sven Elflein Laura Leal-Taixé

On Exposing the Challenging Long Tail in Future Prediction of Traffic Actors.

Osama Makansi Özgün Çiçek Yassine Marrakchi Thomas Brox

Estimating and Exploiting the Aleatoric Uncertainty in Surface Normal Estimation.

Gwangbin Bae Ignas Budvytis Roberto Cipolla

SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation.

Stefan Andreas Baur David Josef Emmerichs Frank Moosmann Peter Pinggera Björn Ommer Andreas Geiger

Motion Basis Learning for Unsupervised Deep Homography Estimation with Subspace Projection.

Nianjin Ye Chuan Wang Haoqiang Fan Shuaicheng Liu

Efficient and Differentiable Shadow Computation for Inverse Problems.

Linjie Lyu Marc Habermann Lingjie Liu Mallikarjun B. R. Ayush Tewari Christian Theobalt

Geometric Granularity Aware Pixel-to-Mesh.

Yue Shi Bingbing Ni Jinxian Liu Dingyi Rong Ye Qian Wenjun Zhang

Multiresolution Deep Implicit Functions for 3D Shape Representation.

Zhang Chen Yinda Zhang Kyle Genova Sean Ryan Fanello Sofien Bouaziz Christian Häne Ruofei Du Cem Keskin Thomas A. Funkhouser Danhang Tang

Motion Guided Attention Fusion to Recognize Interactions from Videos.

Tae Soo Kim Jonathan D. Jones Gregory D. Hager

Learning Self-Similarity in Space and Time as Generalized Motion for Video Action Recognition.

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

Learning an Augmented RGB Representation with Cross-Modal Knowledge Distillation for Action Detection.

Rui Dai Srijan Das François Brémond

Object Tracking by Jointly Exploiting Frame and Event Domain.

Jiqing Zhang Xin Yang Yingkai Fu Xiaopeng Wei Baocai Yin Bo Dong

Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation.

Ziniu Wan Zhengjia Li Maoqing Tian Jianbo Liu Shuai Yi Hongsheng Li

Sketch2Mesh: Reconstructing and Editing 3D Shapes from Sketches.

Benoît Guillard Edoardo Remelli Pierre Yvernay Pascal Fua

SIMstack: A Generative Shape and Instance Model for Unordered Object Stacks.

Zoe Landgraf Raluca Scona Tristan Laidlow Stephen James Stefan Leutenegger Andrew J. Davison

A-SDF: Learning Disentangled Signed Distance Functions for Articulated Shape Representation.

Jiteng Mu Weichao Qiu Adam Kortylewski Alan L. Yuille Nuno Vasconcelos Xiaolong Wang

Planar Surface Reconstruction from Sparse Views.

Linyi Jin Shengyi Qian Andrew Owens David F. Fouhey

Discovering 3D Parts from Image Collections.

Chun-Han Yao Wei-Chih Hung Varun Jampani Ming-Hsuan Yang

THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers.

Mihai Zanfir Andrei Zanfir Eduard Gabriel Bazavan William T. Freeman Rahul Sukthankar Cristian Sminchisescu

Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video.

Edgar Tretschk Ayush Tewari Vladislav Golyanik Michael Zollhöfer Christoph Lassner Christian Theobalt

CodeNeRF: Disentangled Neural Radiance Fields for Object Categories.

Wonbong Jang Lourdes Agapito

Mesh Graphormer.

Kevin Lin Lijuan Wang Zicheng Liu

I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling.

Ping Chen Yujin Chen Dong Yang Fangyin Wu Qin Li Qingpei Xia Yong Tan

DeepGaze IIE: Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling.

Akis Linardos Matthias Kümmerer Ori Press Matthias Bethge

Context-Sensitive Temporal Feature Learning for Gait Recognition.

Xiaohu Huang Duowang Zhu Hao Wang Xinggang Wang Bo Yang Botao He Wenyu Liu Bin Feng

PIAP-DF: Pixel-Interested and Anti Person-Specific Facial Action Unit Detection Net with Discrete Feedback Learning.

Yang Tang Wangding Zeng Dafei Zhao Honggang Zhang

Hierarchical Memory Matching Network for Video Object Segmentation.

Hongje Seong Seoung Wug Oh Joon-Young Lee Seongwon Lee Suhyeon Lee Euntai Kim

Towards Interpretable Deep Networks for Monocular Depth Estimation.

Zunzhi You Yi-Hsuan Tsai Wei-Chen Chiu Guanbin Li

GyroFlow: Gyroscope-Guided Unsupervised Optical Flow Learning.

Haipeng Li Kunming Luo Shuaicheng Liu

VaPiD: A Rapid Vanishing Point Detector via Learned Optimizers.

Shichen Liu Yichao Zhou Yajie Zhao

Adaptive Surface Normal Constraint for Depth Estimation.

Xiaoxiao Long Cheng Lin Lingjie Liu Wei Li Christian Theobalt Ruigang Yang Wenping Wang

SurfaceNet: Adversarial SVBRDF Estimation from a Single Image.

Giuseppe Vecchio Simone Palazzo Concetto Spampinato

Sparse Needlets for Lighting Estimation with Spherical Transport Loss.

Fangneng Zhan Changgong Zhang Wenbo Hu Shijian Lu Feiying Ma Xuansong Xie Ling Shao

Towards High Fidelity Monocular Face Reconstruction with Rich Reflectance using Self-supervised Learning and Ray Tracing.

Abdallah Dib Cédric Thébault Junghyun Ahn Philippe-Henri Gosselin Christian Theobalt Louis Chevallier

Adaptive confidence thresholding for monocular depth estimation.

Hyesong Choi Hunsang Lee Sunkyung Kim Sunok Kim Seungryong Kim Kwanghoon Sohn Dongbo Min

DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes.

Dongki Jung Jaehoon Choi Yonghan Lee Deokhwa Kim Changick Kim Dinesh Manocha Donghwan Lee

MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments.

Pan Ji Runze Li Bir Bhanu Yi Xu

R-MSFM: Recurrent Multi-Scale Feature Modulation for Monocular Depth Estimating.

Zhongkai Zhou Xinnan Fan Pengfei Shi Yuanxue Xin

Boosting Monocular Depth Estimation with Lightweight 3D Point Fusion.

Lam Huynh Phong Nguyen Jirí Matas Esa Rahtu Janne Heikkilä

PX-NET: Simple and Efficient Pixel-Wise Training of Photometric Stereo Networks.

Fotios Logothetis Ignas Budvytis Roberto Mecca Roberto Cipolla

Unsupervised Depth Completion with Calibrated Backprojection Layers.

Alex Wong Stefano Soatto

Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation.

Lina Liu Xibin Song Mengmeng Wang Yong Liu Liangjun Zhang

Can Scale-Consistent Monocular Depth Be Learned in a Self-Supervised Scale-Invariant Manner?

Lijun Wang Yifan Wang Linzhao Wang Yunlong Zhan Ying Wang Huchuan Lu

Holistic Pose Graph: Modeling Geometric Structure among Objects in a Scene using Graph Inference for 3D Object Prediction.

Jiwei Xiao Ruiping Wang Xilin Chen

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface.

Yang Li Hikari Takehara Takafumi Taketomi Bo Zheng Matthias Nießner

NPMs: Neural Parametric Models for 3D Deformable Shapes.

Pablo R. Palafox Aljaz Bozic Justus Thies Matthias Nießner Angela Dai

NeRD: Neural Reflectance Decomposition from Image Collections.

Mark Boss Raphael Braun Varun Jampani Jonathan T. Barron Ce Liu Hendrik P. A. Lensch

Learning Anchored Unsigned Distance Functions with Gradient Direction Alignment for Single-view Garment Reconstruction.

Fang Zhao Wenhao Wang Shengcai Liao Ling Shao

StructDepth: Leveraging the structural regularities for self-supervised indoor depth estimation.

Boying Li Yuan Huang Zeyu Liu Danping Zou Wenxian Yu

Deep Implicit Surface Point Prediction Networks.

Rahul Venkatesh Tejan Karmali Sarthak Sharma Aurobrata Ghosh R. Venkatesh Babu László A. Jeni Maneesh Singh

Fine-grained Semantics-aware Representation Enhancement for Self-supervised Monocular Depth Estimation.

Hyunyoung Jung Eunhyeok Park Sungjoo Yoo

DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene Context Graph and Relation-based Optimization.

Cheng Zhang Zhaopeng Cui Cai Chen Shuaicheng Liu Bing Zeng Hujun Bao Yinda Zhang

Bridging Unsupervised and Supervised Depth from Focus via All-in-Focus Supervision.

Ning-Hsu Wang Ren Wang Yu-Lun Liu Yu-Hao Huang Yu-Lin Chang Chia-Ping Chen Kevin Jou

Geometric Deep Neural Network using Rigid and Non-Rigid Transformations for Human Action Recognition.

Rasha Friji Hassen Drira Faten Chaieb Hamza Kchok Sebastian Kurtek

Toward Realistic Single-View 3D Object Reconstruction with Unsupervised Learning from Multiple Images.

Long-Nhat Ho Anh Tuan Tran Quynh Phung Minh Hoai

Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image.

Weicheng Kuo Anelia Angelova Tsung-Yi Lin Angela Dai

MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis.

Jiaxin Li Zijian Feng Qi She Henghui Ding Changhu Wang Gim Hee Lee

RetrievalFuse: Neural 3D Scene Reconstruction with a Database.

Yawar Siddiqui Justus Thies Fangchang Ma Qi Shan Matthias Nießner Angela Dai

In-the-Wild Single Camera 3D Reconstruction Through Moving Water Surfaces.

Jinhui Xiong Wolfgang Heidrich

3D Building Reconstruction from Monocular Remote Sensing Images.

Weijia Li Lingxuan Meng Jinwang Wang Conghui He Gui-Song Xia Dahua Lin

Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting.

Zian Wang Jonah Philion Sanja Fidler Jan Kautz

Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image.

Ronghang Hu Nikhila Ravi Alexander C. Berg Deepak Pathak

SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting.

Varun Jampani Huiwen Chang Kyle Sargent Abhishek Kar Richard Tucker Michael Krainin Dominik Kaeser William T. Freeman David Salesin Brian Curless Ce Liu

RFNet: Recurrent Forward Network for Dense Point Cloud Completion.

Tianxin Huang Hao Zou Jinhao Cui Xuemeng Yang Mengmeng Wang Xiangrui Zhao Jiangning Zhang Yi Yuan Yifan Xu Yong Liu

PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers.

Xumin Yu Yongming Rao Ziyi Wang Zuyan Liu Jiwen Lu Jie Zhou

ME-PCN: Point Completion Conditioned on Mask Emptiness.

Bingchen Gong Yinyu Nie Yiqun Lin Xiaoguang Han Yizhou Yu

CSG-Stump: A Learning Friendly CSG-Like Representation for Interpretable Shape Parsing.

Daxuan Ren Jianmin Zheng Jianfei Cai Jiatong Li Haiyong Jiang Zhongang Cai Junzhe Zhang Liang Pan Mingyuan Zhang Haiyu Zhao Shuai Yi

Unsupervised Learning of Fine Structure Generation for 3D Point Clouds by 2D Projection Matching.

Chao Chen Zhizhong Han Yu-Shen Liu Matthias Zwicker

3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations.

Kangxue Yin Jun Gao Maria Shugrina Sameh Khamis Sanja Fidler

3DIAS: 3D Shape Reconstruction with Implicit Algebraic Surfaces.

Mohsen Yavartanoo Jaeyoung Chung Reyhaneh Neshatavar Kyoung Mu Lee

Sat2Vid: Street-view Panoramic Video Synthesis from a Single Satellite Image.

Zuoyue Li Zhenqiang Li Zhaopeng Cui Rongjun Qin Marc Pollefeys Martin R. Oswald

Structured Outdoor Architecture Reconstruction by Exploration and Classification.

Fuyang Zhang Xiang Xu Nelson Nauata Yasutaka Furukawa

Reconstructing Hand-Object Interactions in the Wild.

Zhe Cao Ilija Radosavovic Angjoo Kanazawa Jitendra Malik

Single View Physical Distance Estimation using Human Pose.

Xiaohan Fei Henry Wang Lin Lee Cheong Xiangyu Zeng Meng Wang Joseph Tighe

SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation.

Yan Di Fabian Manhardt Gu Wang Xiangyang Ji Nassir Navab Federico Tombari

EventHands: Real-Time Neural 3D Hand Pose Estimation from an Event Stream.

Viktor Rudnev Vladislav Golyanik Jiayi Wang Hans-Peter Seidel Franziska Mueller Mohamed Elgharib Christian Theobalt

Uncertainty-Aware Human Mesh Recovery from Video by Learning Part-Based 3D Dynamics.

Gun-Hee Lee Seong-Whan Lee

Gravity-Aware Monocular 3D Human-Object Reconstruction.

Rishabh Dabral Soshi Shimada Arjun Jain Christian Theobalt Vladislav Golyanik

Pi-NAS: Improving Neural Architecture Search by Reducing Supernet Training Consistency Shift.

Jiefeng Peng Jiqi Zhang Changlin Li Guangrun Wang Xiaodan Liang Liang Lin

One-pass Multi-view Clustering for Large-scale Data.

Jiyuan Liu Xinwang Liu Yuexiang Yang Li Liu Siqi Wang Weixuan Liang Jiangyong Shi

Orthogonal Projection Loss.

Kanchana Ranasinghe Muzammal Naseer Munawar Hayat Salman H. Khan Fahad Shahbaz Khan

AdvRush: Searching for Adversarially Robust Neural Architectures.

Jisoo Mok Byunggook Na Hyeokjun Choe Sungroh Yoon

Learning Latent Architectural Distribution in Differentiable Neural Architecture Search via Variational Information Maximization.

Yaoming Wang Yuchen Liu Wenrui Dai Chenglin Li Junni Zou Hongkai Xiong

Adaptive Convolutions with Per-pixel Dynamic Filter Atom.

Ze Wang Zichen Miao Jun Hu Qiang Qiu

Unifying Nonlocal Blocks for Neural Networks.

Lei Zhu Qi She Duo Li Yanye Lu Xuejing Kang Jie Hu Changhu Wang

BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search.

Changlin Li Tao Tang Guangrun Wang Jiefeng Peng Bing Wang Xiaodan Liang Xiaojun Chang

AutoFormer: Searching Transformers for Visual Recognition.

Minghao Chen Houwen Peng Jianlong Fu Haibin Ling

LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference.

Benjamin Graham Alaaeldin El-Nouby Hugo Touvron Pierre Stock Armand Joulin Hervé Jégou Matthijs Douze

Homogeneous Architecture Augmentation for Neural Predictor.

Yuqiao Liu Yehui Tang Yanan Sun

FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search.

Xiangxiang Chu Bo Zhang Ruijun Xu

Distilling Optimal Neural Networks: Rapid Search in Diverse Spaces.

Bert Moons Parham Noorzad Andrii Skliar Giovanni Mariani Dushyant Mehta Chris Lott Tijmen Blankevoort

Direct Differentiable Augmentation Search.

Aoming Liu Zehao Huang Zhiwu Huang Naiyan Wang

Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search.

Hae-Chan Noh Taeho Kim Jae-Pil Heo

Vector Neurons: A General Framework for SO(3)-Equivariant Networks.

Congyue Deng Or Litany Yueqi Duan Adrien Poulenard Andrea Tagliasacchi Leonidas J. Guibas

Robustness via Cross-Domain Ensembles.

Teresa Yeo Oguzhan Fatih Kar Amir Roshan Zamir

Vision Transformers for Dense Prediction.

René Ranftl Alexey Bochkovskiy Vladlen Koltun

Viewpoint Invariant Dense Matching for Visual Geolocalization.

Gabriele Moreno Berton Carlo Masone Valerio Paolicelli Barbara Caputo

Bayesian Triplet Loss: Uncertainty Quantification in Image Retrieval.

Frederik Warburg Martin Jørgensen Javier Civera Søren Hauberg

Learning Attribute-driven Disentangled Representations for Interactive Fashion Retrieval.

Yuxin Hou Eleonora Vig Michael Donoser Loris Bazzani

Telling the What while Pointing to the Where: Multimodal Queries for Image Retrieval.

Soravit Changpinyo Jordi Pont-Tuset Vittorio Ferrari Radu Soricut

Video Geo-Localization Employing Geo-Temporal Feature Learning and GPS Trajectory Smoothing.

Krishna Regmi Mubarak Shah

Face Image Retrieval with Attribute Manipulation.

Alireza Zaeemzadeh Shabnam Ghadar Baldo Faieta Zhe Lin Nazanin Rahnavard Mubarak Shah Ratheesh Kalarot

Instance-level Image Retrieval using Reranking Transformers.

Fuwen Tan Jiangbo Yuan Vicente Ordonez

Learning specialized activation functions with the Piecewise Linear Unit.

Yucong Zhou Zezhou Zhu Zhao Zhong

Self-supervised Product Quantization for Deep Unsupervised Image Retrieval.

Young Kyun Jang Nam Ik Cho

Deep Symmetric Network for Underexposed Image Enhancement with Recurrent Attentional Learning.

Lin Zhao Shao-Ping Lu Tao Chen Zhenglu Yang Ariel Shamir

Deep Relational Metric Learning.

Wenzhao Zheng Borui Zhang Jiwen Lu Jie Zhou

Universal Cross-Domain Retrieval: Generalizing Across Classes and Domains.

Soumava Paul Titir Dutta Soma Biswas

Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences.

Hyunjong Park Sanghoon Lee Junghyup Lee Bumsub Ham

Video-based Person Re-identification with Spatial and Temporal Memory Networks.

Chanho Eom Geon Lee Junghyup Lee Bumsub Ham

Pyramid Spatial-Temporal Aggregation for Video-based Person Re-Identification.

Yingquan Wang Pingping Zhang Shang Gao Xia Geng Huchuan Lu Dong Wang

ASMR: Learning Attribute-Based Person Search with Adaptive Semantic Margin Regularizer.

Boseung Jeong Jicheol Park Suha Kwak

Weakly Supervised Person Search with Region Siamese Networks.

Chuchu Han Kai Su Dongdong Yu Zehuan Yuan Changxin Gao Nong Sang Yi Yang Changhu Wang

PT-CapsNet: A Novel Prediction-Tuning Capsule Network Suitable for Deeper Architectures.

Chenbin Pan Senem Velipasalar

EC-DARTS: Inducing Equalized and Consistent Optimization into DARTS.

Qinqin Zhou Xiawu Zheng Liujuan Cao Bineng Zhong Teng Xi Gang Zhang Errui Ding Mingliang Xu Rongrong Ji

Inferring high-resolution traffic accident risk maps based on satellite imagery and GPS trajectories.

Songtao He Mohammad Amin Sadeghi Sanjay Chawla Mohammad Alizadeh Hari Balakrishnan Samuel Madden

LIRA: Learnable, Imperceptible and Robust Backdoor Attacks.

Khoa Doan Yingjie Lao Weijie Zhao Ping Li

Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation.

Kai-Hung Chang Chin-Yi Cheng Jieliang Luo Shingo Murata Mehdi Nourbakhsh Yoshito Tsuji

Stochastic Transformer Networks with Linear Competing Units: Application to end-to-end SL Translation.

Andreas Voskou Konstantinos P. Panousis Dimitrios Kosmopoulos Dimitris N. Metaxas Sotirios Chatzis

Rethinking Spatial Dimensions of Vision Transformers.

Byeongho Heo Sangdoo Yun Dongyoon Han Sanghyuk Chun Junsuk Choe Seong Joon Oh

ALADIN: All Layer Adaptive Instance Normalization for Fine-grained Style Similarity.

Dan Ruta Saeid Motiian Baldo Faieta Zhe Lin Hailin Jin Alex Filipkowski Andrew Gilbert John P. Collomosse

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval.

Song Liu Haoqi Fan Shengsheng Qian Yiru Chen Wenkui Ding Zhongyuan Wang

Beyond Road Extraction: A Dataset for Map Update using Aerial Images.

Favyen Bastani Sam Madden

Clothing Status Awareness for Long-Term Person Re-Identification.

Yan Huang Qiang Wu Jingsong Xu Yi Zhong Zhaoxiang Zhang

Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification.

Jinrui Yang Jiawei Zhang Fufu Yu Xinyang Jiang Mengdan Zhang Xing Sun Ying-Cong Chen Wei-Shi Zheng

Occluded Person Re-Identification with Single-scale Global Representations.

Cheng Yan Guansong Pang Jile Jiao Xiao Bai Xuetao Feng Chunhua Shen

IDM: An Intermediate Domain Module for Domain Adaptive Person Re-ID.

Yongxing Dai Jun Liu Yifan Sun Zekun Tong Chi Zhang Ling-Yu Duan

The Center of Attention: Center-Keypoint Grouping via Attention for Multi-Person Pose Estimation.

Guillem Brasó Nikita Kister Laura Leal-Taixé

Memory-augmented Dynamic Neural Relational Inference.

Dong Gong Zhen Zhang Qinfeng (Javen) Shi Anton van den Hengel

Occlude Them All: Occlusion-Aware Attention Network for Occluded Person Re-ID.

Peixian Chen Wenfeng Liu Pingyang Dai Jianzhuang Liu Qixiang Ye Mingliang Xu Qi'an Chen Rongrong Ji

CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification.

Chaoyou Fu Yibo Hu Xiang Wu Hailin Shi Tao Mei Ran He

Explainable Person Re-Identification with Attribute-guided Metric Distillation.

Xiaodong Chen Xinchen Liu Wu Liu Xiaoping Zhang Yongdong Zhang Tao Mei

TransPose: Keypoint Localization via Transformer.

Sen Yang Zhibin Quan Mu Nie Wankou Yang

Learning with Memory-based Virtual Classes for Deep Metric Learning.

ByungSoo Ko Geonmo Gu Han-Gyu Kim

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining.

Xunlin Zhan Yangxin Wu Xiao Dong Yunchao Wei Minlong Lu Yichi Zhang Hang Xu Xiaodan Liang

DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features.

Min Yang Dongliang He Miao Fan Baorong Shi Xuetong Xue Fu Li Errui Ding Jizhou Huang

Ranking Models in Unlabeled New Environments.

Xiaoxiao Sun Yunzhong Hou Weijian Deng Hongdong Li Liang Zheng

Improving Robustness of Facial Landmark Detection by Defending against Adversarial Attacks.

Congcong Zhu Xiaoqiang Li Jide Li Songmin Dai

Online Knowledge Distillation for Efficient Pose Estimation.

Zheng Li Jingwen Ye Mingli Song Ying Huang Zhigeng Pan

DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to the Third Dimension.

Roman Shapovalov David Novotný Benjamin Graham Patrick Labatut Andrea Vedaldi

Motion Adaptive Pose Estimation from Compressed Videos.

Zhipeng Fan Jun Liu Yao Wang

Neural-GIF: Neural Generalized Implicit Functions for Animating People in Clothing.

Garvita Tiwari Nikolaos Sarafianos Tony Tung Gerard Pons-Moll

Towards Accurate Alignment in Real-time 3D Hand-Mesh Reconstruction.

Xiao Tang Tianyu Wang Chi-Wing Fu

Full-Body Motion from a Single Head-Mounted Device: Generating SMPL Poses from Partial Observations.

Andrea Dittadi Sebastian Dziadzio Darren Cosker Ben Lundell Thomas J. Cashman Jamie Shotton

DECA: Deep viewpoint-Equivariant human pose estimation using Capsule Autoencoders.

Nicola Garau Niccoló Bisagno Piotr Bródka Nicola Conci

TravelNet: Self-supervised Physically Plausible Hand Motion Learning from Monocular Color Images.

Zimeng Zhao Xi Zhao Yangang Wang

3D Human Pose Estimation with Spatial and Temporal Transformers.

Ce Zheng Sijie Zhu Matías Mendieta Taojiannan Yang Chen Chen Zhengming Ding

A Unified 3D Human Motion Synthesis Model via Conditional Variational Auto-Encoder∗.

Yujun Cai Yiwei Wang Yiheng Zhu Tat-Jen Cham Jianfei Cai Junsong Yuan Jun Liu Chuanxia Zheng Sijie Yan Henghui Ding Xiaohui Shen Ding Liu Nadia Magnenat-Thalmann

Neural TMDlayer: Modeling Instantaneous flow of features via SDE Generators.

Zihang Meng Vikas Singh Sathya N. Ravi

Self-supervised Transfer Learning for Hand Mesh Recovery from Binocular Images.

Zheng Chen Sihan Wang Yi Sun Xiaohong Ma

Deep Virtual Markers for Articulated 3D Shapes.

Hyomin Kim Jungeon Kim Jaewon Kam Jaesik Park Seungyong Lee

Probabilistic Modeling for Human Mesh Recovery.

Nikos Kolotouros Georgios Pavlakos Dinesh Jayaraman Kostas Daniilidis

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes.

Xu Chen Yufeng Zheng Michael J. Black Otmar Hilliges Andreas Geiger

TeachText: CrossModal Generalized Distillation for Text-Video Retrieval.

Ioana Croitoru Simion-Vlad Bogolin Marius Leordeanu Hailin Jin Andrew Zisserman Samuel Albanie Yang Liu

Support-Set Based Cross-Supervision for Video Grounding.

Xinpeng Ding Nannan Wang Shiwei Zhang De Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment.

Jianwei Yang Yonatan Bisk Jianfeng Gao

Aligning Subtitles in Sign Language Videos.

Hannah Bull Triantafyllos Afouras Gül Varol Samuel Albanie Liliane Momeni Andrew Zisserman

Visual Alignment Constraint for Continuous Sign Language Recognition.

Yuecong Min Aiming Hao Xiujuan Chai Xilin Chen

Physics-based Human Motion Estimation and Synthesis from Videos.

Kevin Xie Tingwu Wang Umar Iqbal Yunrong Guo Sanja Fidler Florian Shkurti

Normalized Human Pose Features for Human Action Video Alignment.

Jingyuan Liu Mingyi Shi Qifeng Chen Hongbo Fu Chiew-Lan Tai

EM-POSE: 3D Human Pose Estimation from Sparse Electromagnetic Trackers.

Manuel Kaufmann Yi Zhao Chengcheng Tang Lingling Tao Christopher D. Twigg Jie Song Robert Wang Otmar Hilliges

Estimating Egocentric 3D Human Pose in Global Space.

Jian Wang Lingjie Liu Weipeng Xu Kripasindhu Sarkar Christian Theobalt

HuMoR: 3D Human Motion Model for Robust Pose Estimation.

Davis Rempe Tolga Birdal Aaron Hertzmann Jimei Yang Srinath Sridhar Leonidas J. Guibas

Modulated Graph Convolutional Network for 3D Human Pose Estimation.

Zhiming Zou Wei Tang

MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human Motion Prediction.

Lingwei Dang Yongwei Nie Chengjiang Long Qing Zhang Guiqing Li

Revitalizing Optimization for 3D Human Pose and Shape Estimation: A Sparse Constrained Formulation.

Taosha Fan Kalyan Vasudev Alwala Donglai Xiang Weipeng Xu Todd D. Murphey Mustafa Mukadam

PyMAF: 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop.

Hongwen Zhang Yating Tian Xinchi Zhou Wanli Ouyang Yebin Liu Limin Wang Zhenan Sun

Learning Skeletal Graph Neural Networks for Hard 3D Pose Estimation.

Ailing Zeng Xiao Sun Lei Yang Nanxuan Zhao Minhao Liu Qiang Xu

Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation.

Mikhail Usvyatsov Anastasia Makarova Rafael Ballester-Ripoll Maxim Rakhuba Andreas Krause Konrad Schindler

Learning Deep Local Features with Multiple Dynamic Attentions for Large-Scale Image Retrieval.

Hui Wu Min Wang Wengang Zhou Houqiang Li

Single Image 3D Shape Retrieval via Cross-Modal Instance and Category Contrastive Learning.

Ming-Xian Lin Jie Yang He Wang Yu-Kun Lai Rongfei Jia Binqiang Zhao Lin Gao

Weakly Supervised Text-based Person Re-Identification.

Shizhen Zhao Changxin Gao Yuanjie Shao Wei-Shi Zheng Nong Sang

Neural Architecture Search for Joint Human Parsing and Pose Estimation.

Dan Zeng Yuhang Huang Qian Bao Junjie Zhang Chi Su Wu Liu

Stochastic Scene-Aware Motion Prediction.

Mohamed Hassan Duygu Ceylan Ruben Villegas Jun Saito Jimei Yang Yi Zhou Michael J. Black

SemiHand: Semi-supervised Hand Pose Estimation with Consistency.

Linlin Yang Shicheng Chen Angela Yao

Interacting Two-Hand 3D Pose and Shape Reconstruction from Single Color Image.

Baowen Zhang Yangang Wang Xiaoming Deng Yinda Zhang Ping Tan Cuixia Ma Hongan Wang

Learning Motion Priors for 4D Human Body Capture in 3D Scenes.

Siwei Zhang Yan Zhang Federica Bogo Marc Pollefeys Siyu Tang

Contextually Plausible and Diverse 3D Human Motion Prediction.

Sadegh Aliakbarian Fatemeh Sadat Saleh Lars Petersson Stephen Gould Mathieu Salzmann

The Animation Transformer: Visual Correspondence via Segment Matching.

Evan Casey Víctor Pérez Zhuoru Li

TokenPose: Learning Keypoint Tokens for Human Pose Estimation.

Yanjie Li Shoukui Zhang Zhicheng Wang Sen Yang Wankou Yang Shu-Tao Xia Erjin Zhou

Self-Mutual Distillation Learning for Continuous Sign Language Recognition.

Aiming Hao Yuecong Min Xilin Chen

Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders.

Jing Li Di Kang Wenjie Pei Xuefei Zhe Ying Zhang Zhenyu He Linchao Bao

Hand Image Understanding via Deep Multi-Task Learning.

Xiong Zhang Hongsheng Huang Jianchao Tan Hongmin Xu Cheng Yang Guozhu Peng Lei Wang Ji Liu

Learning Causal Representation for Training Cross-Domain Pose Estimator via Generative Interventions.

Xiheng Zhang Yongkang Wong Xiaofei Wu Juwei Lu Mohan S. Kankanhalli Xiangdong Li Weidong Geng

HandFoldingNet: A 3D Hand Pose Estimation Network Using Multiscale-Feature Guided Folding of a 2D Hand Skeleton.

Wencan Cheng Jae Hyun Park Jong Hwan Ko

Learning to Regress Bodies from Images using Differentiable Semantic Rendering.

Sai Kumar Dwivedi Nikos Athanasiou Muhammed Kocabas Michael J. Black

An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation.

Rongchang Xie Chunyu Wang Wenjun Zeng Yizhou Wang

Self-Supervised 3D Hand Pose Estimation from monocular RGB via Contrastive Learning.

Adrian Spurr Aneesh Dahiya Xi Wang Xucong Zhang Otmar Hilliges

Hierarchical Kinematic Probability Distributions for 3D Human Shape and Pose Estimation from Images in the Wild.

Akash Sengupta Ignas Budvytis Roberto Cipolla

Space-Time-Separable Graph Convolutional Network for Pose Forecasting.

Theodoros Sofianos Alessio Sampieri Luca Franco Fabio Galasso

Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows.

Tom Wehrbein Marco Rudolph Bodo Rosenhahn Bastian Wandt

End-to-End Detection and Pose Estimation of Two Interacting Hands.

Dong Uk Kim Kwang In Kim Seungryul Baek

Monocular, One-stage, Regression of Multiple 3D People.

Yu Sun Qian Bao Wu Liu Yili Fu Michael J. Black Tao Mei

Camera Distortion-aware 3D Human Pose Estimation in Video with Optimization-based Meta-Learning.

Hanbyel Cho Yooshin Cho Jaemyung Yu Junmo Kim

Shape-aware Multi-Person Pose Estimation from Multi-View Images.

Zijian Dong Jie Song Xu Chen Chen Guo Otmar Hilliges

Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images.

Size Wu Sheng Jin Wentao Liu Lei Bai Chen Qian Dong Liu Wanli Ouyang

Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D Shape, Pose, and Appearance Consistency.

Soubhik Sanyal Betty Mohler Alex Vorobiov Larry Davis Timo Bolkart Javier Romero Matthew Loper Michael J. Black

PARE: Part Attention Regressor for 3D Human Body Estimation.

Muhammed Kocabas Chun-Hao P. Huang Otmar Hilliges Michael J. Black

SOMA: Solving Optical Marker-Based MoCap Automatically.

Nima Ghorbani Michael J. Black

Hand-Object Contact Consistency Reasoning for Human Grasps Generation.

Hanwen Jiang Shaowei Liu Jiashun Wang Xiaolong Wang

CPF: Learning a Contact Potential Field to Model the Hand-Object Interaction.

Lixin Yang Xinyu Zhan Kailin Li Wenqiang Xu Jiefeng Li Cewu Lu

SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition.

Hezhen Hu Weichao Zhao Wengang Zhou Yuechen Wang Houqiang Li

Speech Drives Templates: Co-Speech Gesture Synthesis with Learned Templates.

Shenhan Qian Zhi Tu YiHao Zhi Wen Liu Shenghua Gao

Removing the Bias of Integral Pose Regression.

Kerui Gu Linlin Yang Angela Yao

Keypoint Communities.

Duncan Zauss Sven Kreiss Alexandre Alahi

ARCH++: Animation-Ready Clothed Human Reconstruction Revisited.

Tong He Yuanlu Xu Shunsuke Saito Stefano Soatto Tony Tung

SPEC: Seeing People in the Wild with an Estimated Camera.

Muhammed Kocabas Chun-Hao P. Huang Joachim Tesch Lea Müller Otmar Hilliges Michael J. Black

Human Pose Regression with Residual Log-likelihood Estimation.

Jiefeng Li Siyuan Bian Ailing Zeng Can Wang Bo Pang Wentao Liu Cewu Lu

Unsupervised 3D Pose Estimation for Hierarchical Dance Video Recognition *.

Xiaodan Hu Narendra Ahuja

Egocentric Pose Estimation from Human Vision Span.

Hao Jiang Vamsi Krishna Ithapu

EventHPE: Event-based 3D Human Pose and Shape Estimation.

Shihao Zou Chuan Guo Xinxin Zuo Sen Wang Pengyu Wang Xiaoqin Hu Shoushun Chen Minglun Gong Li Cheng

Action-Conditioned 3D Human Motion Synthesis with Transformer VAE.

Mathis Petrovich Michael J. Black Gül Varol

The Power of Points for Modeling Humans in Clothing.

Qianli Ma Jinlong Yang Siyu Tang Michael J. Black

BioFors: A Large Biomedical Image Forensics Dataset.

Ekraam Sabir Soumyaroop Nandi Wael AbdAlmageed Prem Natarajan

FloW: A Dataset and Benchmark for Floating Waste Detection in Inland Waters.

Yuwei Cheng Jiannan Zhu Mengxin Jiang Jie Fu Changsong Pang Peidong Wang Kris Sankaran Olawale Onabola Yimin Liu Dianbo Liu Yoshua Bengio

BV-Person: A Large-scale Dataset for Bird-view Person Re-identification.

Cheng Yan Guansong Pang Lei Wang Jile Jiao Xuetao Feng Chunhua Shen Jingjing Li

3D-FRONT: 3D Furnished Rooms with layOuts and semaNTics.

Huan Fu Bowen Cai Lin Gao Lingxiao Zhang Jiaming Wang Cao Li Qixun Zeng Chengyue Sun Rongfei Jia Binqiang Zhao Hao Zhang

Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection.

Renshuai Tao Yanlu Wei Xiangjian Jiang Hainan Li Haotong Qin Jiakai Wang Yuqing Ma Libo Zhang Xianglong Liu

Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding.

Mike Roberts Jason Ramapuram Anurag Ranjan Atulit Kumar Miguel Ángel Bautista Nathan Paczan Russ Webb Joshua M. Susskind

Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction.

Jeremy Reizenstein Roman Shapovalov Philipp Henzler Luca Sbordone Patrick Labatut David Novotný

UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model.

Haonan Yan Jiaqi Chen Xujie Zhang Shengkai Zhang Nianhong Jiao Xiaodan Liang Tianxiang Zheng

SynFace: Face Recognition with Synthetic Data.

Haibo Qiu Baosheng Yu Dihong Gong Zhifeng Li Wei Liu Dacheng Tao

StereOBJ-1M: Large-scale Stereo Image Dataset for 6D Object Pose Estimation.

Xingyu Liu Shun Iwase Kris M. Kitani

Learning to Track with Object Permanence.

Pavel Tokmakov Jie Li Wolfram Burgard Adrien Gaidon

MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?

Matteo Fabbri Guillem Brasó Gianluca Maugeri Orcun Cetintas Riccardo Gasparini Aljosa Osep Simone Calderara Laura Leal-Taixé Rita Cucchiara

Learning to Adversarially Blur Visual Object Tracking.

Qing Guo Ziyi Cheng Felix Juefei-Xu Lei Ma Xiaofei Xie Yang Liu Jianjun Zhao

Wanderlust: Online Continual Object Detection in the Real World.

Jianren Wang Xin Wang Yue Shang-Guan Abhinav Gupta

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition.

Daniela Massiceti Luisa M. Zintgraf John Bronskill Lida Theodorou Matthew Tobias Harris Edward Cutrell Cecily Morrison Katja Hofmann Simone Stumpf

Separable Flow: Learning Motion Cost Volumes for Optical Flow Estimation.

Feihu Zhang Oliver J. Woodford Victor Prisacariu Philip H. S. Torr

End-to-End Video Instance Segmentation via Spatial-Temporal Graph Neural Networks.

Tao Wang Ning Xu Kean Chen Weiyao Lin

Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans.

Ainaz Eftekhar Alexander Sax Jitendra Malik Amir Roshan Zamir

Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation.

Weiyao Wang Matt Feiszli Heng Wang Du Tran

ACDC: The Adverse Conditions Dataset with Correspondences for Semantic Driving Scene Understanding.

Christos Sakaridis Dengxin Dai Luc Van Gool

Dynamic Surface Function Networks for Clothed Human Bodies.

Andrei Burov Matthias Nießner Justus Thies

KoDF: A Large-scale Korean DeepFake Detection Dataset.

Patrick Kwon Jaeseong You Gyuhyeon Nam Sungwoo Park Gyeongsu Chae

Transparent Object Tracking Benchmark.

Heng Fan Halady Akhilesha Miththanthaya Harshit Siranjiv Ramana Rajan Xiaoqiong Liu Zhilin Zou Yuewei Lin Haibin Ling

DepthTrack: Unveiling the Power of RGBD Tracking.

Song Yan Jinyu Yang Jani Käpylä Feng Zheng Ales Leonardis Joni-Kristian Kämäräinen

Cloud Transformers: A Universal Approach To Point Cloud Processing Tasks.

Kirill Mazur Victor Lempitsky

Low-Shot Validation: Active Importance Sampling for Estimating Classifier Performance on Rare Categories.

Fait Poms Vishnu Sarukkai Ravi Teja Mullapudi Nimit Sharad Sohoni William R. Mark Deva Ramanan Kayvon Fatahalian

Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet Process.

Fei Ye Adrian G. Bors

Learning with Privileged Tasks.

Yuru Song Zan Lou Shan You Erkun Yang Fei Wang Chen Qian Changshui Zhang Xiaogang Wang

Lipschitz Continuity Guided Knowledge Distillation.

Yuzhang Shang Bin Duan Ziliang Zong Liqiang Nie Yan Yan

Kernel Methods in Hyperbolic Spaces.

Pengfei Fang Mehrtash Harandi Lars Petersson

DiagViB-6: A Diagnostic Benchmark Suite for Vision Models in the Presence of Shortcut and Generalization Opportunities.

Elias Eulig Piyapat Saranrittichai Chaithanya Kumar Mummadi Kilian Rambach William Beluch Xiahan Shi Volker Fischer

Do Different Deep Metric Learning Losses Lead to Similar Learned Features?

Konstantin Kobs Michael Steininger Andrzej Dulny Andreas Hotho

LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric Learning.

Bhavya Vasudeva Puneesh Deora Saumik Bhattacharya Umapada Pal Sukalpa Chanda

Contrastive Learning for Label Efficient Semantic Segmentation.

Xiangyun Zhao Raviteja Vemulapalli Philip Andrew Mansfield Boqing Gong Bradley Green Lior Shapira Ying Wu

von Mises-Fisher Loss: An Exploration of Embedding Geometries for Supervised Learning.

Tyler R. Scott Andrew C. Gallagher Michael C. Mozer

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach.

Zeren Sun Yazhou Yao Xiu-Shen Wei Yongshun Zhang Fumin Shen Jianxin Wu Jian Zhang Heng Tao Shen

Weakly Supervised Representation Learning with Coarse Labels.

Yuanhong Xu Qi Qian Hao Li Rong Jin Juhua Hu

Focus on the Positives: Self-Supervised Learning for Biodiversity Monitoring.

Omiros Pantazis Gabriel J. Brostow Kate E. Jones Oisin Mac Aodha

Partner-Assisted Learning for Few-Shot Image Classification.

Jiawei Ma Hanchen Xie Guangxing Han Shih-Fu Chang Aram Galstyan Wael Abd-Almageed

Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning.

Mandela Patrick Po-Yao Huang Ishan Misra Florian Metze Andrea Vedaldi Yuki M. Asano João F. Henriques

Personalized Image Semantic Segmentation.

Yu Zhang Chang-Bin Zhang Peng-Tao Jiang Ming-Ming Cheng Feng Mao

Region Similarity Representation Learning.

Tete Xiao Colorado J. Reed Xiaolong Wang Kurt Keutzer Trevor Darrell

Impact of Aliasing on Generalization in Deep Convolutional Networks.

Cristina Vasconcelos Hugo Larochelle Vincent Dumoulin Rob Romijnders Nicolas Le Roux Ross Goroshin

Poly-NL: Linear Complexity Non-local Layers With 3rd Order Polynomials.

Francesca Babiloni Ioannis Marras Filippos Kokkinos Jiankang Deng Grigorios Chrysos Stefanos Zafeiriou

Not All Operations Contribute Equally: Hierarchical Operation-adaptive Predictor for Neural Architecture Search.

Ziye Chen Yibing Zhan Baosheng Yu Mingming Gong Bo Du

High-Resolution Optical Flow from 1D Attention and Correlation.

Haofei Xu Jiaolong Yang Jianfei Cai Juyong Zhang Xin Tong

Exploring Simple 3D Multi-Object Tracking for Autonomous Driving.

Chenxu Luo Xiaodong Yang Alan L. Yuille

Point-set Distances for Learning Representations of 3D Point Clouds.

Trung Nguyen Quang-Hieu Pham Tam Le Tung Pham Nhat Ho Binh-Son Hua

SGMNet: Learning Rotation-Invariant Point Cloud Representations via Sorted Gram Matrix.

Jianyun Xu Xin Tang Yushi Zhu Jie Sun Shiliang Pu

Temporally-Coherent Surface Reconstruction via Metric-Consistent Atlases.

Jan Bednarík Vladimir G. Kim Siddhartha Chaudhuri Shaifali Parashar Mathieu Salzmann Pascal Fua Noam Aigerman

Learning Spatio-Temporal Transformer for Visual Tracking.

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

PARTS: Unsupervised segmentation with slots, attention and independence maximization.

Daniel Zoran Rishabh Kabra Alexander Lerchner Danilo J. Rezende

Motion-Augmented Self-Training for Video Recognition at Smaller Scale.

Kirill Gavrilyuk Mihir Jain Ilia Karmanov Cees G. M. Snoek

ViewNet: Unsupervised Viewpoint Estimation from Conditional Generation.

Octave Mariotti Oisin Mac Aodha Hakan Bilen

Curious Representation Learning for Embodied Intelligence.

Yilun Du Chuang Gan Phillip Isola

BuildingNet: Learning to Label 3D Buildings.

Pratheba Selvaraju Mohamed Nabail Marios Loizou Maria Maslioukova Melinos Averkiou Andreas Andreou Siddhartha Chaudhuri Evangelos Kalogerakis

Distilling Holistic Knowledge with Graph Neural Networks.

Sheng Zhou Yucheng Wang Defang Chen Jiawei Chen Xin Wang Can Wang Jiajun Bu

RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform Successive Halving.

Ruochen Wang Xiangning Chen Minhao Cheng Xiaocheng Tang Cho-Jui Hsieh

Adversarial Unsupervised Domain Adaptation with Conditional and Label Shift: Infer, Align and Iterate.

Xiaofeng Liu Zhenhua Guo Site Li Fangxu Xing Jane You C.-C. Jay Kuo Georges El Fakhri Jonghye Woo

Refining activation downsampling with SoftPool.

Alexandros Stergiou Ronald Poppe Grigorios Kalliatakis

Warp Consistency for Unsupervised Learning of Dense Correspondences.

Prune Truong Martin Danelljan Fisher Yu Luc Van Gool

Instance Similarity Learning for Unsupervised Feature Representation.

Ziwei Wang Yunsong Wang Ziyi Wu Jiwen Lu Jie Zhou

Mean Shift for Self-Supervised Learning.

Soroush Abbasi Koohpayegani Ajinkya Tejankar Hamed Pirsiavash

Rethinking preventing class-collapsing in metric learning with margin-based losses.

Elad Levi Tete Xiao Xiaolong Wang Trevor Darrell

Improving Contrastive Learning by Visualizing Feature Transformation.

Rui Zhu Bingchen Zhao Jingen Liu Zhenglong Sun Chang Wen Chen

Video Annotation for Visual Tracking via Selection and Refinement.

Kenan Dai Jie Zhao Lijun Wang Dong Wang Jianhua Li Huchuan Lu Xuesheng Qian Xiaoyun Yang

Benchmark Platform for Ultra-Fine-Grained Visual Categorization Beyond Human Performance.

Xiaohan Yu Yang Zhao Yongsheng Gao Xiaohui Yuan Shengwu Xiong

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning.

Sangho Lee Jiwan Chung Youngjae Yu Gunhee Kim Thomas M. Breuel Gal Chechik Yale Song

Active Learning for Deep Object Detection via Probabilistic Modeling.

Jiwoong Choi Ismail Elezi Hyuk-Jae Lee Clément Farabet Jose M. Alvarez

Self-Supervised Pretraining of 3D Features on any Point-Cloud.

Zaiwei Zhang Rohit Girdhar Armand Joulin Ishan Misra

Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment.

Heliang Zheng Huan Yang Jianlong Fu Zheng-Jun Zha Jiebo Luo

Understanding Robustness of Transformers for Image Classification.

Srinadh Bhojanapalli Ayan Chakrabarti Daniel Glasner Daliang Li Thomas Unterthiner Andreas Veit

Temporal-wise Attention Spiking Neural Networks for Event Streams Classification.

Man Yao Huanhuan Gao Guangshe Zhao Dingheng Wang Yihan Lin Zhao-Xu Yang Guoqi Li

Improving robustness against common corruptions with frequency biased models.

Tonmoy Saikia Cordelia Schmid Thomas Brox

Improve Unsupervised Pretraining for Few-label Transfer.

Suichan Li Dongdong Chen Yinpeng Chen Lu Yuan Lei Zhang Qi Chu Bin Liu Nenghai Yu

Self-Supervised Representation Learning from Flow Equivariance.

Yuwen Xiong Mengye Ren Wenyuan Zeng Raquel Urtasun Waabi

Geography-Aware Self-Supervised Learning.

Kumar Ayush Burak Uzkent Chenlin Meng Kumar Tanmay Marshall Burke David B. Lobell Stefano Ermon

Temporal Knowledge Consistency for Unsupervised Visual Representation Learning.

Weixin Feng Yuanjiang Wang Lihua Ma Ye Yuan Chi Zhang

Self-Supervised Visual Representations Learning by Contrastive Mask Prediction.

Yucheng Zhao Guangting Wang Chong Luo Wenjun Zeng Zheng-Jun Zha

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency.

Haiping Wu Xiaolong Wang

H2O: Two Hands Manipulating Objects for First Person Interaction Recognition.

Taein Kwon Bugra Tekin Jan Stühmer Federica Bogo Marc Pollefeys

FloorPlanCAD: A Large-Scale CAD Drawing Dataset for Panoptic Symbol Spotting.

Zhiwen Fan Lingjie Zhu Honghua Li Xiaohao Chen Siyu Zhu Ping Tan

OpenForensics: Large-Scale Challenging Dataset For Multi-Face Forgery Detection And Segmentation In-The-Wild.

Trung-Nghia Le Huy H. Nguyen Junichi Yamagishi Isao Echizen

LaLaLoc: Latent Layout Localisation in Dynamic, Unvisited Environments.

Henry Howard-Jenkins José-Raúl Ruiz-Sarmiento Victor Adrian Prisacariu

SketchAA: Abstract Representation for Abstract Sketches.

Lan Yang Kaiyue Pang Honggang Zhang Yi-Zhe Song

Efficient Visual Pretraining with Contrastive Detection.

Olivier J. Hénaff Skanda Koppula Jean-Baptiste Alayrac Aäron van den Oord Oriol Vinyals João Carreira

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective.

Jiarui Xu Xiaolong Wang

Divide and Contrast: Self-supervised Learning from Uncurated Data.

Yonglong Tian Olivier J. Hénaff Aäron van den Oord

Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals.

Wouter Van Gansbeke Simon Vandenhende Stamatios Georgoulis Luc Van Gool

Weakly Supervised Contrastive Learning.

Mingkai Zheng Fei Wang Shan You Chen Qian Changshui Zhang Xiaogang Wang Chang Xu

Rethinking and Improving Relative Position Encoding for Vision Transformer.

Kan Wu Houwen Peng Minghao Chen Jianlong Fu Hongyang Chao

InSeGAN: A Generative Approach to Segmenting Identical Instances in Depth Images.

Anoop Cherian Goncalo Dias Pais Siddarth Jain Tim K. Marks Alan Sullivan

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.

Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin Baining Guo

Field Convolutions for Surface CNNs.

Thomas W. Mitchel Vladimir G. Kim Michael Kazhdan

T-SVDNet: Exploring High-Order Prototypical Correlations for Multi-Source Domain Adaptation.

Ruihuang Li Xu Jia Jianzhong He Shuaijun Chen Qinghua Hu

Co-Scale Conv-Attentional Image Transformers.

Weijian Xu Yifan Xu Tyler A. Chang Zhuowen Tu

Time-Equivariant Contrastive Video Representation Learning.

Simon Jenni Hailin Jin

Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning.

Zixu Zhao Yueming Jin Pheng-Ann Heng

Contrasting Contrastive Self-Supervised Representation Learning Pipelines.

Klemen Kotar Gabriel Ilharco Ludwig Schmidt Kiana Ehsani Roozbeh Mottaghi

Learning Compatible Embeddings.

Qiang Meng Chixiang Zhang Xiaoqiang Xu Feng Zhou

Clustering by Maximizing Mutual Information Across Views.

Kien Do Truyen Tran Svetha Venkatesh

Learning Better Visual Data Similarities via New Grouplet Non-Euclidean Embedding.

Yanfu Zhang Lei Luo Wenhan Xian Heng Huang

Deep Matching Prior: Test-Time Optimization for Dense Correspondence.

Sunghwan Hong Seungryong Kim

On Equivariant and Invariant Learning of Object Landmark Representations.

Zezhou Cheng Jong-Chyi Su Subhransu Maji

Towards Interpretable Deep Metric Learning with Structural Matching.

Wenliang Zhao Yongming Rao Ziyi Wang Jiwen Lu Jie Zhou

Track without Appearance: Learn Box and Tracklet Embedding with Local and Global Motion Patterns for Vehicle Tracking.

Gaoang Wang Renshu Gu Zuozhu Liu Weijie Hu Mingli Song Jenq-Neng Hwang

Saliency-Associated Object Tracking.

Zikun Zhou Wenjie Pei Xin Li Hongpeng Wang Feng Zheng Zhenyu He

High-Performance Discriminative Tracking with Transformers.

Bin Yu Ming Tang Linyu Zheng Guibo Zhu Jinqiao Wang Hao Feng Xuetao Feng Hanqing Lu

CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization.

Ara Jafarzadeh Manuel López-Antequera Pau Gargallo Yubin Kuang Carl Toft Fredrik Kahl Torsten Sattler

Visio-Temporal Attention for Multi-Camera Multi-Target Association.

Yu-Jhe Li Xinshuo Weng Yan Xu Kris Kitani

Human Trajectory Prediction via Counterfactual Analysis.

Guangyi Chen Junlong Li Jiwen Lu Jie Zhou

AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent Forecasting.

Ye Yuan Xinshuo Weng Yanglan Ou Kris Kitani

LOKI: Long Term and Key Intentions for Trajectory Prediction.

Harshayu Girase Haiming Gang Srikanth Malla Jiachen Li Akira Kanehara Karttikeya Mangalam Chiho Choi

Learn-to-Race: A Multimodal Control Environment for Autonomous Racing.

James Herman Jonathan Francis Siddha Ganju Bingqing Chen Anirudh Koul Abhinav Gupta Alexey Skabelkin Ivan Zhukov Max Kumskoy Eric Nyberg

Unsupervised Point Cloud Pre-training via Occlusion Completion.

Hanchen Wang Qi Liu Xiangyu Yue Joan Lasenby Matt J. Kusner

Learning to Estimate Hidden Motions with Global Motion Aggregation.

Shihao Jiang Dylan Campbell Yao Lu Hongdong Li Richard I. Hartley

X-World: Accessibility, Vision, and Autonomy Meet.

Jimuyang Zhang Minglan Zheng Matthew Boyd Eshed Ohn-Bar

A Hierarchical Variational Neural Uncertainty Model for Stochastic Video Prediction.

Moitreya Chatterjee Narendra Ahuja Anoop Cherian

Dissecting Image Crops.

Basile Van Hoorick Carl Vondrick

Video Autoencoder: self-supervised disentanglement of static 3D structure and motion.

Zihang Lai Sifei Liu Alexei A. Efros Xiaolong Wang

Contact-Aware Retargeting of Skinned Motion.

Ruben Villegas Duygu Ceylan Aaron Hertzmann Jimei Yang Jun Saito

Large Scale Interactive Motion Forecasting for Autonomous Driving : The Waymo Open Motion Dataset.

Scott Ettinger Shuyang Cheng Benjamin Caine Chenxi Liu Hang Zhao Sabeek Pradhan Yuning Chai Ben Sapp Charles R. Qi Yin Zhou Zoey Yang Aurelien Chouard Pei Sun Jiquan Ngiam Vijay Vasudevan Alexander McCauley Jonathon Shlens Dragomir Anguelov

Seeing Dynamic Scene in the Dark: A High-Quality Video Dataset with Mechatronic Alignment.

Ruixing Wang Xiaogang Xu Chi-Wing Fu Jiangbo Lu Bei Yu Jiaya Jia

UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps.

Peter Meltzer Hooman Shayani Amir Khasahmadi Pradeep Kumar Jayaraman Aditya Sanghi Joseph G. Lambourne

Learning Facial Representations from the Cycle-consistency of Face.

Jia-Ren Chang Yong-Sheng Chen Wei-Chen Chiu

Joint Inductive and Transductive Learning for Video Object Segmentation.

Yunyao Mao Ning Wang Wengang Zhou Houqiang Li

Do Image Classifiers Generalize Across Time?

Vaishaal Shankar Achal Dave Rebecca Roelofs Deva Ramanan Benjamin Recht Ludwig Schmidt

Emerging Properties in Self-Supervised Vision Transformers.

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin

An Empirical Study of Training Self-Supervised Vision Transformers.

Xinlei Chen Saining Xie Kaiming He

Concept Generalization in Visual Representation Learning.

Mert Bülent Sariyildiz Yannis Kalantidis Diane Larlus Karteek Alahari

SelfReg: Self-supervised Contrastive Regularization for Domain Generalization.

Daehee Kim Youngjun Yoo Seunghyun Park Jinkyu Kim Jaekoo Lee

ISD: Self-Supervised Learning by Iterative Similarity Distillation.

Ajinkya Tejankar Soroush Abbasi Koohpayegani Vipin Pillai Paolo Favaro Hamed Pirsiavash

On Feature Decorrelation in Self-Supervised Learning.

Tianyu Hua Wenxiao Wang Zihui Xue Sucheng Ren Yue Wang Hang Zhao

With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations.

Debidatta Dwibedi Yusuf Aytar Jonathan Tompson Pierre Sermanet Andrew Zisserman

On Compositions of Transformations in Contrastive Self-Supervised Learning.

Mandela Patrick Yuki Markus Asano Polina Kuznetsova Ruth Fong João F. Henriques Geoffrey Zweig Andrea Vedaldi

Universal-Prototype Enhancing for Few-Shot Object Detection.

Aming Wu Yahong Han Linchao Zhu Yi Yang

SIGN: Spatial-information Incorporated Generative Network for Generalized Zero-shot Semantic Segmentation.

Jiaxin Cheng Soumyaroop Nandi Prem Natarajan Wael Abd-Almageed

Field-Guide-Inspired Zero-Shot Learning.

Utkarsh Mall Bharath Hariharan Kavita Bala

Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic Segmentation.

Donghyeon Baek Youngmin Oh Bumsub Ham

Universal Representation Learning from Multiple Domains for Few-shot Classification.

Wei-Hong Li Xialei Liu Hakan Bilen

Co2L: Contrastive Continual Learning.

Hyuntak Cha Jaeho Lee Jinwoo Shin

Solving Inefficiency of Self-supervised Representation Learning.

Guangrun Wang Keze Wang Guangcong Wang Philip H. S. Torr Liang Lin

Distributional Robustness Loss for Long-tail Learning.

Dvir Samuel Gal Chechik

Learning from Noisy Data with Robust Representation Learning.

Junnan Li Caiming Xiong Steven C. H. Hoi

CoMatch: Semi-supervised Learning with Contrastive Graph Regularization.

Junnan Li Caiming Xiong Steven C. H. Hoi

Meta-Learning with Task-Adaptive Loss Function for Few-Shot Learning.

Sungyong Baik Janghoon Choi Heewon Kim Dohee Cho Jaesik Min Kyoung Mu Lee

Few-Shot and Continual Learning with Attentive Independent Mechanisms.

Eugene Lee Cheng-Han Huang Chen-Yi Lee

Few-shot Image Classification: Just Use a Library of Pre-trained Feature Extractors and a Simple Classifier.

Arkabandhu Chowdhury Mingchao Jiang Swarat Chaudhuri Chris Jermaine

Meta Navigator: Search for a Good Adaptation Policy for Few-shot Learning.

Chi Zhang Henghui Ding Guosheng Lin Ruibo Li Changhu Wang Chunhua Shen

Boosting the Generalization Capability in Cross-Domain Few-shot Learning via Noise-enhanced Supervised Autoencoder.

Hanwen Liang Qiong Zhang Peng Dai Juwei Lu

Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data.

Oscar Mañas Alexandre Lacoste Xavier Giró-i-Nieto David Vázquez Pau Rodríguez

Testing using Privileged Information by Adapting Features with Statistical Dependence.

Kwang In Kim James Tompkin

Densely Guided Knowledge Distillation using Multiple Teacher Assistants.

Wonchul Son Jaemin Na Junyong Choi Wonjun Hwang

Rehearsal revealed: The limits and merits of revisiting samples in continual learning.

Eli Verwimp Matthias De Lange Tinne Tuytelaars

Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning.

James Smith Yen-Chang Hsu Jonathan Balloch Yilin Shen Hongxia Jin Zsolt Kira

MT-ORL: Multi-Task Occlusion Relationship Learning.

Panhe Feng Qi She Lei Zhu Jiaxin Li Lin Zhang Zijian Feng Changhu Wang Chunpeng Li Xuejing Kang Anlong Ming

STEM: An approach to Multi-source Domain Adaptation with Guarantees.

Van-Anh Nguyen Tuan Nguyen Trung Le Quan Hung Tran Dinh Phung

Vector-Decomposed Disentanglement for Domain-Invariant Object Detection.

Aming Wu Rui Liu Yahong Han Linchao Zhu Yi Yang

Partial Video Domain Adaptation with Partial Adversarial Temporal Attentive Network.

Yuecong Xu Jianfei Yang Haozhi Cao Zhenghua Chen Qi Li Kezhi Mao

Towards Novel Target Discovery Through Open-Set Domain Adaptation.

Taotao Jing Hongfu Liu Zhengming Ding

Me-Momentum: Extracting Hard Confident Examples from Noisily Labeled Data.

Yingbin Bai Tongliang Liu

Energy-Based Open-World Uncertainty Modeling for Confidence Calibration.

Yezhen Wang Bo Li Tong Che Kaiyang Zhou Ziwei Liu Dongsheng Li

Localized Simple Multiple Kernel K-means.

Xinwang Liu Sihang Zhou Li Liu Chang Tang Siwei Wang Jiyuan Liu Yi Zhang

A Unified Objective for Novel Class Discovery.

Enrico Fini Enver Sangineto Stéphane Lathuilière Zhun Zhong Moin Nabi Elisa Ricci

Influence Selection for Active Learning.

Zhuoming Liu Hao Ding Huaping Zhong Weijia Li Jifeng Dai Conghui He

Semi-Supervised Single-Stage Controllable GANs for Conditional Fine-Grained Image Generation.

Tianyi Chen Yi Liu Yunfei Zhang Si Wu Yong Xu Liangbing Feng Hau-San Wong

Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition.

James Hong Matthew Fisher Michaël Gharbi Kayvon Fatahalian

Long Short View Feature Decomposition via Contrastive Video Representation Learning.

Nadine Behrmann Mohsen Fayyaz Juergen Gall Mehdi Noroozi

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering.

Jie Xu Yazhou Ren Huayi Tang Xiaorong Pu Xiaofeng Zhu Ming Zeng Lifang He

Graph Contrastive Clustering.

Huasong Zhong Jianlong Wu Chong Chen Jianqiang Huang Minghua Deng Liqiang Nie Zhouchen Lin Xian-Sheng Hua

Information-theoretic regularization for Multi-source Domain Adaptation.

Geon Yeong Park Sang Wan Lee

Seeking Similarities over Differences: Similarity-based Domain Alignment for Adaptive Object Detection.

Farzaneh Rezaeianaran Rakshith Shetty Rahaf Aljundi Daniel Olmeda Reino Shanshan Zhang Bernt Schiele

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation.

Jinyu Yang Chunyuan Li Weizhi An Hehuan Ma Yuzhi Guo Yu Rong Peilin Zhao Junzhou Huang

Tune it the Right Way: Unsupervised Validation of Domain Adaptation via Soft Neighborhood Density.

Kuniaki Saito Donghyun Kim Piotr Teterwak Stan Sclaroff Trevor Darrell Kate Saenko

Re-energizing Domain Discriminator with Sample Relabeling for Adversarial Domain Adaptation.

Xin Jin Cuiling Lan Wenjun Zeng Zhibo Chen

A Style and Semantic Memory Mechanism for Domain Generalization*.

Yang Chen Yu Wang Yingwei Pan Ting Yao Xinmei Tian Tao Mei

The Pursuit of Knowledge: Discovering and Localizing Novel Categories using Dual Memory.

Sai Saketh Rambhatla Rama Chellappa Abhinav Shrivastava

Robust Object Detection via Instance-Level Temporal Cycle Confusion.

Xin Wang Thomas E. Huang Benlin Liu Fisher Yu Xiaolong Wang Joseph E. Gonzalez Trevor Darrell

Knowledge Mining and Transferring for Domain Adaptive Object Detection.

Kun Tian Chenghao Zhang Ying Wang Shiming Xiang Chunhong Pan

CDS: Cross-Domain Self-supervised Pre-training.

Donghyun Kim Kuniaki Saito Tae-Hyun Oh Bryan A. Plummer Stan Sclaroff Kate Saenko

Multi-Anchor Active Domain Adaptation for Semantic Segmentation.

Munan Ning Donghuan Lu Dong Wei Cheng Bian Chenglang Yuan Shuang Yu Kai Ma Yefeng Zheng

Semantic Concentration for Domain Adaptation.

Shuang Li Mixue Xie Fangrui Lv Chi Harold Liu Jian Liang Chen Qin Wei Li

Uncertainty-aware Pseudo Label Refinery for Domain Adaptive Semantic Segmentation.

Yuxi Wang Junran Peng Zhaoxiang Zhang

Dual Path Learning for Domain Adaptation of Semantic Segmentation.

Yiting Cheng Fangyun Wei Jianmin Bao Dong Chen Fang Wen Wenqiang Zhang

Multi-Target Adversarial Frameworks for Domain Adaptation in Semantic Segmentation.

Antoine Saporta Tuan-Hung Vu Matthieu Cord Patrick Pérez

Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning.

Yinbo Chen Zhuang Liu Huijuan Xu Trevor Darrell Xiaolong Wang

Coarsely-labeled Data for Better Few-shot Transfer.

Cheng Perng Phoo Bharath Hariharan

Mixture-based Feature Space Learning for Few-shot Image Classification.

Arman Afrasiyabi Jean-François Lalonde Christian Gagné

On the Importance of Distractors for Few-Shot Classification.

Rajshekhar Das Yu-Xiong Wang José M. F. Moura

Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration without Forgetting.

Anna Kukleva Hilde Kuehne Bernt Schiele

Adaptive Adversarial Network for Source-free Domain Adaptation.

Haifeng Xia Handong Zhao Zhengming Ding

OVANet: One-vs-All Network for Universal Domain Adaptation.

Kuniaki Saito Kate Saenko

RDA: Robust Domain Adaptation via Fourier Adversarial Attacking.

Jiaxing Huang Dayan Guan Aoran Xiao Shijian Lu

Generalized Source-free Domain Adaptation.

Shiqi Yang Yaxing Wang Joost van de Weijer Luis Herranz Shangling Jui

Active Universal Domain Adaptation.

Xinhong Ma Junyu Gao Changsheng Xu

Confidence Calibration for Domain Generalization under Covariate Shift.

Yunye Gong Xiao Lin Yi Yao Thomas G. Dietterich Ajay Divakaran Melinda T. Gervasio

Meta Learning on a Sequence of Imbalanced Domains with Difficulty Awareness.

Zhenyi Wang Tiehang Duan Le Fang Qiuling Suo Mingchen Gao

Gradient Distribution Alignment Certificates Better Adversarial Domain Adaptation.

Zhiqiang Gao Shufei Zhang Kaizhu Huang Qiufeng Wang Chaoliang Zhong

Contrastive Coding for Active Learning under Class Distribution Mismatch.

Pan Du Suyun Zhao Hui Chen Shuwen Chai Hong Chen Cuiping Li

Weak Adaptation Learning: Addressing Cross-domain Data Insufficiency with Weak Annotator.

Shichao Xu Lixu Wang Yixuan Wang Qi Zhu

Deep Co-Training with Task Decomposition for Semi-Supervised Domain Adaptation.

Luyu Yang Yan Wang Mingfei Gao Abhinav Shrivastava Kilian Q. Weinberger Wei-Lun Chao Ser-Nam Lim

Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation.

Won Young Jhoo Jae-Pil Heo

A Simple Feature Augmentation for Domain Generalization.

Pan Li Da Li Wei Li Shaogang Gong Yanwei Fu Timothy M. Hospedales

mDALU: Multi-Source Domain Adaptation and Label Unification with Partial Datasets.

Rui Gong Dengxin Dai Yuhua Chen Wen Li Luc Van Gool

Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency.

Zhipeng Luo Zhongang Cai Changqing Zhou Gongjie Zhang Haiyu Zhao Shuai Yi Shijian Lu Hongsheng Li Shanghang Zhang Ziwei Liu

Multi-Task Self-Training for Learning General Representations.

Golnaz Ghiasi Barret Zoph Ekin D. Cubuk Quoc V. Le Tsung-Yi Lin

A Broad Study on the Transferability of Visual Representations with Contrastive Learning.

Ashraful Islam Chun-Fu Chen Rameswar Panda Leonid Karlinsky Richard J. Radke Rogério Feris

Composable Augmentation Encoding for Video Representation Learning.

Chen Sun Arsha Nagrani Yonglong Tian Cordelia Schmid

Relational Embedding for Few-Shot Classification.

Dahyun Kang Heeseung Kwon Juhong Min Minsu Cho

Variational Feature Disentangling for Fine-Grained Few-Shot Classification.

Jingyi Xu Hieu Le Mingzhen Huang ShahRukh Athar Dimitris Samaras

BAPA-Net: Boundary Adaptation and Prototype Alignment for Cross-domain Semantic Segmentation.

Yahao Liu Jinhong Deng Xinchen Gao Wen Li Lixin Duan

Divide-and-Assemble: Learning Block-wise Memory for Unsupervised Anomaly Detection.

Jinlei Hou Yingying Zhang Qiaoyong Zhong Di Xie Shiliang Pu Hong Zhou

Deep Transport Network for Unsupervised Video Object Segmentation.

Kaihua Zhang Zicheng Zhao Dong Liu Qingshan Liu Bo Liu

Domain-Invariant Disentangled Network for Generalizable Object Detection.

Chuang Lin Zehuan Yuan Sicheng Zhao Peize Sun Changhu Wang Jianfei Cai

PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation.

Qiqi Gu Qianyu Zhou Minghao Xu Zhengyang Feng Guangliang Cheng Xuequan Lu Jianping Shi Lizhuang Ma

Iterative label cleaning for transductive and semi-supervised few-shot learning.

Michalis Lazarou Tania Stathaki Yannis Avrithis

Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer.

Zhihe Lu Sen He Xiatian Zhu Li Zhang Yi-Zhe Song Tao Xiang

Discriminative Region-based Multi-Label Zero-Shot Learning.

Sanath Narayan Akshita Gupta Salman H. Khan Fahad Shahbaz Khan Ling Shao Mubarak Shah

Mining Latent Classes for Few-shot Segmentation.

Lihe Yang Wei Zhuo Lei Qi Yinghuan Shi Yang Gao

Semantics Disentangling for Generalized Zero-Shot Learning.

Zhi Chen Yadan Luo Ruihong Qiu Sen Wang Zi Huang Jingjing Li Zheng Zhang

Learning to Hallucinate Examples from Extrinsic and Intrinsic Supervision.

Liangke Gui Adrien Bardes Ruslan Salakhutdinov Alexander Hauptmann Martial Hebert Yu-Xiong Wang

Curvature Generation in Curved Spaces for Few-Shot Learning.

Zhi Gao Yuwei Wu Yunde Jia Mehrtash Harandi

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection.

Limeng Qiao Yuxuan Zhao Zhiyuan Li Xi Qiu Jianan Wu Chi Zhang

Pseudo-loss Confidence Metric for Semi-supervised Few-shot Learning.

Kai Huang Jie Geng Wen Jiang Xinyang Deng Zhe Xu

Synthesized Feature based Few-Shot Class-Incremental Learning on a Mixture of Subspaces.

Ali Cheraghian Shafin Rahman Sameera Ramasinghe Pengfei Fang Christian Simon Lars Petersson Mehrtash Harandi

Towards Alleviating the Modeling Ambiguity of Unsupervised Monocular 3D Human Pose Estimation.

Zhenbo Yu Bingbing Ni Jingwei Xu Junjie Wang Chenglong Zhao Wenjun Zhang

Unsupervised Layered Image Decomposition into Object Prototypes.

Tom Monnier Elliot Vincent Jean Ponce Mathieu Aubry

Intrinsic-Extrinsic Preserved GANs for Unsupervised 3D Pose Transfer.

Haoyu Chen Hao Tang Henglin Shi Wei Peng Nicu Sebe Guoying Zhao

Skeleton2Mesh: Kinematics Prior Injected Unsupervised Human Mesh Recovery.

Zhenbo Yu Junjie Wang Jingwei Xu Bingbing Ni Chenglong Zhao Minsi Wang Wenjun Zhang

Self-Supervised Object Detection via Generative Image Synthesis.

Siva Karthik Mustikovela Shalini De Mello Aayush Prakash Umar Iqbal Sifei Liu Thu Nguyen-Phuoc Carsten Rother Jan Kautz

Transporting Causal Mechanisms for Unsupervised Domain Adaptation.

Zhongqi Yue Qianru Sun Xian-Sheng Hua Hanwang Zhang

LabOR: Labeling Only if Required for Domain Adaptive Semantic Segmentation.

Inkyu Shin Dong-Jin Kim Jae-Won Cho Sanghyun Woo KwanYong Park In So Kweon

ECACL: A Holistic Framework for Semi-Supervised Domain Adaptation.

Kai Li Chang Liu Handong Zhao Yulun Zhang Yun Fu

Adversarial Robustness for Unsupervised Domain Adaptation.

Muhammad Awais Fengwei Zhou Hang Xu Lanqing Hong Ping Luo Sung-Ho Bae Zhenguo Li

SENTRY: Selective Entropy Optimization via Committee Consistency for Unsupervised Domain Adaptation.

Viraj Prabhu Shivam Khare Deeksha Kartik Judy Hoffman

BiMaL: Bijective Maximum Likelihood Approach to Domain Adaptation in Semantic Scene Segmentation.

Thanh-Dat Truong Chi Nhan Duong Ngan Le Son Lam Phung Chase Rainwater Khoa Luu

Geometric Unsupervised Domain Adaptation for Semantic Segmentation.

Vitor Guizilini Jie Li Rares Ambrus Adrien Gaidon

Towards Discriminative Representation Learning for Unsupervised Person Re-identification.

Takashi Isobe Dong Li Lu Tian Weihua Chen Yi Shan Shengjin Wang

Domain Adaptive Semantic Segmentation with Self-Supervised Depth Estimation.

Qin Wang Dengxin Dai Lukas Hoyer Luc Van Gool Olga Fink

Active Domain Adaptation via Clustering Uncertainty-weighted Embeddings.

Viraj Prabhu Arjun Chandrasekaran Kate Saenko Judy Hoffman

A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection.

Shelly Sheynin Sagie Benaim Lior Wolf

Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation.

Jay Patravali Gaurav Mittal Ye Yu Fuxin Li Mei Chen

Interaction Compass: Multi-Label Zero-Shot Learning of Human-Object Interactions via Spatial Relations.

Dat Huynh Ehsan Elhamifar

LoFGAN: Fusing Local Representations for Few-shot Image Generation.

Zheng Gu Wenbin Li Jing Huo Lei Wang Yang Gao

A Multi-Mode Modulator for Multi-Domain Few-Shot Classification.

Yanbin Liu Juho Lee Linchao Zhu Ling Chen Humphrey Shi Yi Yang

Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples.

Mahmoud Assran Mathilde Caron Ishan Misra Piotr Bojanowski Armand Joulin Nicolas Ballas Michael G. Rabbat

Task-aware Part Mining Network for Few-Shot Learning.

Jiamin Wu Tianzhu Zhang Yongdong Zhang Feng Wu

Learning Rare Category Classifiers on a Tight Labeling Budget.

Ravi Teja Mullapudi Fait Poms William R. Mark Deva Ramanan Kayvon Fatahalian

Transductive Few-Shot Classification on the Oblique Manifold.

Guodong Qi Huimin Yu Zhaohui Lu Shuzhao Li

Binocular Mutual Learning for Improving Few-shot Classification.

Ziqi Zhou Xi Qiu Jiangtao Xie Jianan Wu Chi Zhang

DetCo: Unsupervised Contrastive Learning for Object Detection.

Enze Xie Jian Ding Wenhai Wang Xiaohang Zhan Hang Xu Peize Sun Zhenguo Li Ping Luo

Shape Self-Correction for Unsupervised Point Cloud Understanding.

Ye Chen Jinxian Liu Bingbing Ni Hang Wang Jiancheng Yang Ning Liu Teng Li Qi Tian

Online Pseudo Label Generation by Hierarchical Cluster Dynamics for Adaptive Person Re-identification.

Yi Zheng Shixiang Tang Guolong Teng Yixiao Ge Kaijian Liu Jing Qin Donglian Qi Dapeng Chen

Unsupervised Dense Deformation Embedding Network for Template-Free Shape Correspondence.

Ronghan Chen Yang Cong Jiahua Dong

Keep CALM and Improve Visual Feature Attribution.

Jae Myung Kim Junsuk Choe Zeynep Akata Seong Joon Oh

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization.

Dan Hendrycks Steven Basart Norman Mu Saurav Kadavath Frank Wang Evan Dorundo Rahul Desai Tyler Zhu Samyak Parajuli Mike Guo Dawn Song Jacob Steinhardt Justin Gilmer

DRÆM - A discriminatively trained reconstruction embedding for surface anomaly detection.

Vitjan Zavrtanik Matej Kristan Danijel Skocaj

NAS-OoD: Neural Architecture Search for Out-of-Distribution Generalization.

Haoyue Bai Fengwei Zhou Lanqing Hong Nanyang Ye S.-H. Gary Chan Zhenguo Li

Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for Open-Set Semi-Supervised Learning.

Junkai Huang Chaowei Fang Weikai Chen Zhenhua Chai Xiaolin Wei Pengxu Wei Liang Lin Guanbin Li

Semantically Coherent Out-of-Distribution Detection.

Jingkang Yang Haoqi Wang Litong Feng Xiaopeng Yan Huabin Zheng Wayne Zhang Ziwei Liu

Task Switching Network for Multi-task Learning.

Guolei Sun Thomas Probst Danda Pani Paudel Nikola Popovic Menelaos Kanakis Jagruti Patel Dengxin Dai Luc Van Gool

Online Continual Learning with Natural Distribution Shifts: An Empirical Study with Visual Data.

Zhipeng Cai Ozan Sener Vladlen Koltun

Exploring Inter-Channel Correlation for Diversity-preserved Knowledge Distillation.

Li Liu Qingle Huang Sihao Lin Hongwei Xie Bing Wang Xiaojun Chang Xiaodan Liang

CCT-Net: Category-Invariant Cross-Domain Transfer for Medical Single-to-Multiple Disease Diagnosis.

Yi Zhou Lei Huang Tao Zhou Ling Shao

Continual Prototype Evolution: Learning Online from Non-Stationary Data Streams.

Matthias De Lange Tinne Tuytelaars

Self-Supervised Video Representation Learning with Meta-Contrastive Network.

Yuanze Lin Xun Guo Yan Lu

A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation*.

Jianlong Yuan Yifan Liu Chunhua Shen Zhibin Wang Hao Li

Semi-Supervised Semantic Segmentation with Pixel-Level Contrastive Learning from a Class-wise Memory Bank.

Iñigo Alonso Alberto Sabater David Ferstl Luis Montesano Ana C. Murillo

GistNet: a Geometric Structure Transfer Network for Long-Tailed Recognition.

Bo Liu Haoxiang Li Hao Kang Gang Hua Nuno Vasconcelos

Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation.

Yunhang Shen Liujuan Cao Zhiwei Chen Baochang Zhang Chi Su Yongjian Wu Feiyue Huang Rongrong Ji

Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection.

Bingyao Yu Wanhua Li Xiu Li Jiwen Lu Jie Zhou

Watch Only Once: An End-to-End Video Action Detection Framework.

Shoufa Chen Peize Sun Enze Xie Chongjian Ge Jiannan Wu Lan Ma Jiajun Shen Ping Luo

Interactive Prototype Learning for Egocentric Action Recognition.

Xiaohan Wang Linchao Zhu Heng Wang Yi Yang

HighlightMe: Detecting Highlights from Human-Centric Videos.

Uttaran Bhattacharya Gang Wu Stefano Petrangeli Viswanathan Swaminathan Dinesh Manocha

Attention is not Enough: Mitigating the Distribution Discrepancy in Asynchronous Multimodal Sequence Fusion.

Tao Liang Guosheng Lin Lei Feng Yan Zhang Fengmao Lv

TF-Blender: Temporal Feature Blender for Video Object Detection.

Yiming Cui Liqi Yan Zhiwen Cao Dongfang Liu

Joint Visual and Audio Learning for Video Highlight Detection.

Taivanbat Badamdorj Mrigank Rochan Yang Wang Li Cheng

Unified Graph Structured Models for Video Understanding.

Anurag Arnab Chen Sun Cordelia Schmid

Detecting Human-Object Relationships in Videos.

Jingwei Ji Rishi Desai Juan Carlos Niebles

ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency.

Deng Huang Wenhao Wu Weiwen Hu Xu Liu Dongliang He Zhihua Wu Xiangmiao Wu Mingkui Tan Errui Ding

Weakly-Supervised Action Segmentation and Alignment via Transcript-Aware Union-of-Subspaces Learning.

Zijia Lu Ehsan Elhamifar

Generic Event Boundary Detection: A Benchmark for Event Segmentation.

Mike Zheng Shou Stan Weixian Lei Weiyao Wang Deepti Ghadiyaram Matt Feiszli

Video Object Segmentation with Dynamic Memory Networks and Adaptive Object Alignment.

Shuxian Liang Xu Shen Jianqiang Huang Xian-Sheng Hua

Domain Adaptive Video Segmentation via Temporal Consistency Regularization.

Dayan Guan Jiaxing Huang Aoran Xiao Shijian Lu

Crossover Learning for Fast Online Video Instance Segmentation.

Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Chen Fang Ying Shan Bin Feng Wenyu Liu

Searching for Two-Stream Models in Multivariate Space for Video Recognition.

Xinyu Gong Heng Wang Zheng Shou Matt Feiszli Zhangyang Wang Zhicheng Yan

Temporal Action Detection with Multi-level Supervision.

Baifeng Shi Qi Dai Judy Hoffman Kate Saenko Trevor Darrell Huijuan Xu

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos.

Brian Chen Andrew Rouditchenko Kevin Duarte Hilde Kuehne Samuel Thomas Angie W. Boggust Rameswar Panda Brian Kingsbury Rogério Feris David Harwath James R. Glass Michael Picheny Shih-Fu Chang

Foreground-Action Consistency Network for Weakly Supervised Temporal Action Localization.

Linjiang Huang Liang Wang Hongsheng Li

Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization.

Rui Qian Yuxi Li Huabin Liu John See Shuangrui Ding Xian Liu Dian Li Weiyao Lin

PR-Net: Preference Reasoning for Personalized Video Highlight Detection.

Runnan Chen Penghao Zhou Wenzhe Wang Nenglun Chen Pai Peng Xing Sun Wenping Wang

Cross-category Video Highlight Detection via Set-based Learning.

Minghao Xu Hang Wang Bingbing Ni Riheng Zhu Zhenbang Sun Changhu Wang

VideoLT: Large-scale Long-tailed Video Recognition.

Xing Zhang Zuxuan Wu Zejia Weng Huazhu Fu Jingjing Chen Yu-Gang Jiang Larry Davis

Temporal Cue Guided Video Highlight Detection with Low-Rank Audio-Visual Fusion.

Qinghao Ye Xiyue Shen Yuan Gao Zirui Wang Qi Bi Ping Li Guang Yang

Contrast and Order Representations for Video Self-supervised Learning.

Kai Hu Jie Shao Yuan Liu Bhiksha Raj Marios Savvides Zhiqiang Shen

Online-trained Upsampler for Deep Low Complexity Video Compression.

Jan P. Klopp Keng-Chi Liu Shao-Yi Chien Liang-Gee Chen

Group-aware Contrastive Regression for Action Quality Assessment.

Xumin Yu Yongming Rao Wenliang Zhao Jiwen Lu Jie Zhou

Sensor-Guided Optical Flow.

Matteo Poggi Filippo Aleotti Stefano Mattoccia

Fooling LiDAR Perception via Adversarial Trajectory Perturbation.

Yiming Li Congcong Wen Felix Juefei-Xu Chen Feng

End-to-End Unsupervised Document Image Blind Denoising.

Mehrdad J. Gangeh Marcin Plata Hamid R. Motahari Nezhad Nigel P. Duffy

Removing Adversarial Noise in Class Activation Feature Space.

Dawei Zhou Nannan Wang Chunlei Peng Xinbo Gao Xiaoyu Wang Jun Yu Tongliang Liu

Data-free Universal Adversarial Perturbation and Black-box Attack.

Chaoning Zhang Philipp Benz Adil Karjauv In So Kweon

Exploiting Multi-Object Relationships for Detecting Adversarial Attacks in Complex Scenes.

Mingjun Yin Shasha Li Zikui Cai Chengyu Song M. Salman Asif Amit K. Roy-Chowdhury Srikanth V. Krishnamurthy

Naturalistic Physical Adversarial Patch for Object Detectors.

Yu-Chih-Tuan Hu Jun-Cheng Chen Bo-Han Kung Kai-Lung Hua Daniel Stanley Tan

On the Robustness of Vision Transformers to Adversarial Examples.

Kaleel Mahmood Rigel Mahmood Marten van Dijk

Integer-arithmetic-only Certified Robustness for Quantized Neural Networks.

Haowen Lin Jian Lou Li Xiong Cyrus Shahabi

Batch Normalization Increases Adversarial Vulnerability and Decreases Adversarial Transferability: A Non-Robust Feature Perspective.

Philipp Benz Chaoning Zhang In So Kweon

Relating Adversarially Robust Generalization to Flat Minima.

David Stutz Matthias Hein Bernt Schiele

Minimal Adversarial Examples for Deep Learning on 3D Point Clouds.

Jaeyeon Kim Binh-Son Hua Duc Thanh Nguyen Sai-Kit Yeung

Meta-Attack: Class-agnostic and Model-agnostic Physical Adversarial Attack.

Weiwei Feng Baoyuan Wu Tianzhu Zhang Yong Zhang Yongdong Zhang

Consistency-Sensitivity Guided Ensemble Black-Box Adversarial Attacks in Low-Dimensional Spaces.

Jianhe Yuan Zhihai He

Adversarial Attacks On Multi-Agent Communication.

James Tu Tsun-Hsuan Wang Jingkang Wang Sivabalan Manivasagam Mengye Ren Raquel Urtasun

Reliably fast adversarial training via latent adversarial perturbation.

Geon Yeong Park Sang Wan Lee

Meta Gradient Adversarial Attack.

Zheng Yuan Jie Zhang Yunpei Jia Chuanqi Tan Tao Xue Shiguang Shan

Augmented Lagrangian Adversarial Attacks.

Jérôme Rony Eric Granger Marco Pedersoli Ismail Ben Ayed

Towards Understanding the Generative Capability of Adversarially Robust Classifiers.

Yao Zhu Jiacheng Ma Jiacheng Sun Zewei Chen Rongxin Jiang Yaowu Chen Zhenguo Li

ProFlip: Targeted Trojan Attack with Progressive Bit Flips.

Huili Chen Cheng Fu Jishen Zhao Farinaz Koushanfar

On Generating Transferable Targeted Perturbations.

Muzammal Naseer Salman H. Khan Munawar Hayat Fahad Shahbaz Khan Fatih Porikli

Parallel Rectangle Flip Attack: A Query-based Black-box Attack against Object Detection.

Siyuan Liang Baoyuan Wu Yanbo Fan Xingxing Wei Xiaochun Cao

Adversarial Example Detection Using Latent Neighborhood Graph.

Ahmed Abusnaina Yuhang Wu Sunpreet S. Arora Yizhen Wang Fei Wang Hao Yang David Mohaisen

Sample Efficient Detection and Classification of Adversarial Attacks via Self-Supervised Embeddings.

Mazda Moayeri Soheil Feizi

Just One Moment: Structural Vulnerability of Deep Action Recognition against One Frame Attack.

Jaehui Hwang Jun-Hyuk Kim Jun-Ho Choi Jong-Seok Lee

AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge Distillation and Bi-directional Metric Learning.

Hong Wang Yuefan Deng Shinjae Yoo Haibin Ling Yuewei Lin

TkML-AP: Adversarial Attacks to Top-k Multi-Label Learning.

Shu Hu Lipeng Ke Xin Wang Siwei Lyu

Feature Importance-aware Transferable Adversarial Attacks.

Zhibo Wang Hengchang Guo Zhifei Zhang Wenxin Liu Zhan Qin Kui Ren

Where are you heading? Dynamic Trajectory Prediction with Expert Goal Examples.

He Zhao Richard P. Wildes

DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation.

Wentao Bao Qi Yu Yu Kong

Robustness Certification for Point Cloud Models.

Tobias Lorenz Anian Ruoss Mislav Balunovic Gagandeep Singh Martin T. Vechev

A Backdoor Attack against 3D Point Cloud Classifiers.

Zhen Xiang David J. Miller Siheng Chen Xi Li George Kesidis

Q-Match: Iterative Shape Matching via Quantum Annealing.

Marcel Seelbach Benkner Zorah Lähner Vladislav Golyanik Christof Wunderlich Christian Theobalt Michael Moeller

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition.

Rameswar Panda Chun-Fu (Richard) Chen Quanfu Fan Ximeng Sun Kate Saenko Aude Oliva Rogério Feris

OadTR: Online Action Detection with Transformers.

Xiang Wang Shiwei Zhang Zhiwu Qing Yuanjie Shao Zhengrong Zuo Changxin Gao Nong Sang

Tripartite Information Mining and Integration for Image Matting.

Yuhao Liu Jiake Xie Xiao Shi Yu Qiao Yujie Huang Yong Tang Xin Yang

MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving.

Kai Chen Lanqing Hong Hang Xu Zhenguo Li Dit-Yan Yeung

Self-Supervised Vessel Segmentation via Adversarial Learning.

Yuxin Ma Yang Hua Hanming Deng Tao Song Hao Wang Zhengui Xue Heng Cao Ruhui Ma Haibing Guan

Can Shape Structure Features Improve Model Robustness under Diverse Adversarial Settings?

Mingjie Sun Zichao Li Chaowei Xiao Haonan Qiu Bhavya Kailkhura Mingyan Liu Bo Li

S3VAADA: Submodular Subset Selection for Virtual Adversarial Active Domain Adaptation.

Harsh Rangwani Arihant Jain Sumukh K. Aithal R. Venkatesh Babu

AdvDrop: Adversarial Attack to DNNs by Dropping Information.

Ranjie Duan Yuefeng Chen Dantong Niu Yun Yang A. Kai Qin Yuan He

Towards Robustness of Deep Neural Networks via Regularization.

Yao Li Martin Renqiang Min Thomas C. M. Lee Wenchao Yu Erik Kruus Wei Wang Cho-Jui Hsieh

Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic Segmentation.

Xiaogang Xu Hengshuang Zhao Jiaya Jia

Spatio-Temporal Dynamic Inference Network for Group Activity Recognition.

Hangjie Yuan Dong Ni Mang Wang

Interpolation-Aware Padding for 3D Sparse Convolutional Neural Networks.

Yu-Qi Yang Peng-Shuai Wang Yang Liu

CPFN: Cascaded Primitive Fitting Networks for High-Resolution Point Clouds.

Eric-Tuan Lê Minhyuk Sung Duygu Ceylan Radomír Mech Tamy Boubekeur Niloy J. Mitra

DRINet: A Dual-Representation Iterative Learning Network for Point Cloud Segmentation.

Maosheng Ye Shuangjie Xu Tongyi Cao Qifeng Chen

Differentiable Convolution Search for Point Cloud Processing.

Xing Nie Yongcheng Liu Shaohong Chen Jianlong Chang Chunlei Huo Gaofeng Meng Qi Tian Weiming Hu Chunhong Pan

Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU.

Shipra Jain Danda Pani Paudel Martin Danelljan Luc Van Gool

Scribble-Supervised Semantic Segmentation by Uncertainty Reduction on Neural Representation and Self-Supervision on Neural Eigenspace.

Zhiyi Pan Peng Jiang Yunhai Wang Changhe Tu Anthony G. Cohn

Weakly Supervised Segmentation of Small Buildings with Point Labels.

Jae-Hun Lee ChanYoung Kim Sanghoon Sull

A Weakly Supervised Amodal Segmenter with Boundary Uncertainty Estimation.

Khoi Nguyen Sinisa Todorovic

Graph-BAS3Net: Boundary-Aware Semi-Supervised Segmentation Network with Bilateral Graph Convolution.

Huimin Huang Lanfen Lin Yue Zhang Yingying Xu Jing Zheng Xiongwei Mao Xiaohan Qian Zhiyi Peng Jianying Zhou Yen-Wei Chen Ruofeng Tong

Dynamic Network Quantization for Efficient Video Inference.

Ximeng Sun Rameswar Panda Chun-Fu (Richard) Chen Aude Oliva Rogério Feris Kate Saenko

Predictive Feature Learning for Future Segmentation Prediction.

Zihang Lin Jiangxin Sun Jianfang Hu Qi-Zhi Yu Jian-Huang Lai Wei-Shi Zheng

Weakly Supervised Temporal Anomaly Segmentation with Dynamic Time Warping.

Dongha Lee Sehun Yu Hyunjun Ju Hwanjo Yu

Conditional Diffusion for Interactive Segmentation.

Xi Chen Zhiyan Zhao Feiwu Yu Yilei Zhang Manni Duan

Unsupervised Point Cloud Object Co-segmentation by Co-contrastive Learning and Mutual Attention Sampling.

Cheng-Kun Yang Yung-Yu Chuang Yen-Yu Lin

Unsupervised Segmentation incorporating Shape Prior via Generative Adversarial Networks.

Dahye Kim Byung-Woo Hong

Real-time Instance Segmentation with Discriminative Orientation Maps.

Wentao Du Zhiyu Xiang Shuya Chen Chengyu Qiao Yiman Chen Tingming Bai

Exploring Cross-Image Pixel Contrast for Semantic Segmentation.

Wenguan Wang Tianfei Zhou Fisher Yu Jifeng Dai Ender Konukoglu Luc Van Gool

Few-Shot Semantic Segmentation with Cyclic Memory Network.

Guo-Sen Xie Huan Xiong Jie Liu Yazhou Yao Ling Shao

ECS-Net: Improving Weakly Supervised Semantic Segmentation by Using Connections Between Class Activation Maps.

Kunyang Sun Haoqing Shi Zhengming Zhang Yongming Huang

Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation.

Yuanyi Zhong Bodi Yuan Hong Wu Zhiqiang Yuan Jian Peng Yu-Xiong Wang

Segmenter: Transformer for Semantic Segmentation.

Robin Strudel Ricardo Garcia Pinel Ivan Laptev Cordelia Schmid

From Contexts to Locality: Ultra-high Resolution Image Segmentation via Locality-aware Contextual Correlation.

Qi Li Weixiang Yang Wenxi Liu Yuanlong Yu Shengfeng He

Complementary Patch for Weakly Supervised Semantic Segmentation.

Fei Zhang Chaochen Gu Chenyue Zhang Yuchao Dai

Mining Contextual Information Beyond Image for Semantic Segmentation.

Zhenchao Jin Tao Gong Dongdong Yu Qi Chu Jian Wang Changhu Wang Jie Shao

Boundary-sensitive Pre-training for Temporal Localization in Videos.

Mengmeng Xu Juan-Manuel Pérez-Rúa Victor Escorcia Brais Martínez Xiatian Zhu Li Zhang Bernard Ghanem Tao Xiang

Multiview Pseudo-Labeling for Semi-supervised Learning from Video.

Bo Xiong Haoqi Fan Kristen Grauman Christoph Feichtenhofer

Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation.

Jiabo Huang Yang Liu Shaogang Gong Hailin Jin

ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation.

Zhenchao Jin Bin Liu Qi Chu Nenghai Yu

Self-supervised Video Object Segmentation by Motion Grouping.

Charig Yang Hala Lamdouar Erika Lu Andrew Zisserman Weidi Xie

Cascade Image Matting with Deformable Graph Refinement.

Zijian Yu Xuhui Li Huijuan Huang Wen Zheng Li Chen

SOTR: Segmenting Objects with Transformers.

Ruohao Guo Dantong Niu Liao Qu Zhenbo Li

Joint Topology-preserving and Feature-refinement Network for Curvilinear Structure Segmentation.

Mingfei Cheng Kaili Zhao Xuhong Guo Yajing Xu Jun Guo

Specialize and Fuse: Pyramidal Output Representation for Semantic Segmentation.

Chi-Wei Hsiao Cheng Sun Hwann-Tzong Chen Min Sun

How Shift Equivariance Impacts Metric Learning for Instance Segmentation.

Josef Lorenz Rumberger Xiaoyan Yu Peter Hirsch Melanie Dohmen Vanessa Emanuela Guarino Ashkan Mokarian Lisa Mais Jan Funke Dagmar Kainmueller

TempNet: Online Semantic Segmentation on Large-scale Point Cloud Series.

Yunsong Zhou Hongzi Zhu Chunqin Li Tiankai Cui Shan Chang Minyi Guo

Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal Learning in Domain Adaptation for 3D Semantic Segmentation.

Duo Peng Yinjie Lei Wen Li Pingping Zhang Yulan Guo

Persistent Homology based Graph Convolution Network for Fine-grained 3D Shape Segmentation.

Chi-Chong Wong Chi-Man Vong

ShapeConv: Shape-aware Convolutional Layer for Indoor RGB-D Semantic Segmentation.

Jinming Cao Hanchao Leng Dani Lischinski Danny Cohen-Or Changhe Tu Yangyan Li

AINet: Association Implantation for Superpixel Segmentation.

Yaxiong Wang Yunchao Wei Xueming Qian Li Zhu Yi Yang

Self-Mutating Network for Domain Adaptive Segmentation of Aerial Images.

Kyungsu Lee Haeyun Lee Jae Youn Hwang

Calibrated Adversarial Refinement for Stochastic Semantic Segmentation.

Elias Kassapis Georgi Dikov Deepak K. Gupta Cedric Nugteren

Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation.

Jogendra Nath Kundu Akshay Kulkarni Amit Singh Varun Jampani R. Venkatesh Babu

C3-SemiSeg: Contrastive Semi-supervised Segmentation via Cross-set Learning and Dynamic Class-balancing.

Yanning Zhou Hang Xu Wei Zhang Bin Gao Pheng-Ann Heng

RECALL: Replay-based Continual Learning in Semantic Segmentation.

Andrea Maracani Umberto Michieli Marco Toldo Pietro Zanuttigh

The surprising impact of mask-head architecture on novel class segmentation.

Vighnesh Birodkar Zhichao Lu Siyang Li Vivek Rathod Jonathan Huang

Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation.

Yukun Su Ruizhou Sun Guosheng Lin Qingyao Wu

Unlocking the Potential of Ordinary Classifier: Class-specific Adversarial Erasing Framework for Weakly Supervised Semantic Segmentation.

Hyeokjun Kweon Sung-Hoon Yoon Hyeonseong Kim Daehee Park Kuk-Jin Yoon

Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation.

Lian Xu Wanli Ouyang Mohammed Bennamoun Farid Boussaïd Ferdous Sohel Dan Xu

Prototypical Matching and Open Set Rejection for Zero-Shot Semantic Segmentation.

Hui Zhang Henghui Ding

Pseudo-mask Matters in Weakly-supervised Semantic Segmentation.

Yi Li Zhanghui Kuang Liyang Liu Yimin Chen Wayne Zhang

Self-Regulation for Semantic Segmentation.

Dong Zhang Hanwang Zhang Jinhui Tang Xian-Sheng Hua Qianru Sun

Hypercorrelation Squeeze for Few-Shot Segmenation.

Juhong Min Dahyun Kang Minsu Cho

Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation.

Ruifei He Jihan Yang Xiaojuan Qi

Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation.

Hongjun Chen Jinbao Wang Hong Cai Chen Xiantong Zhen Feng Zheng Rongrong Ji Ling Shao

Instances as Queries.

Yuxin Fang Shusheng Yang Xinggang Wang Yu Li Chen Fang Ying Shan Bin Feng Wenyu Liu

An Elastica Geodesic Approach with Convexity Shape Prior.

Da Chen Laurent D. Cohen Jean-Marie Mirebeau Xuecheng Tai

Local Temperature Scaling for Probability Calibration.

Zhipeng Ding Xu Han Peirong Liu Marc Niethammer

RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth.

Mengyang Pu Yaping Huang Qingji Guan Haibin Ling

Field of Junctions: Extracting Boundary Structure at Low SNR.

Dor Verbin Todd E. Zickler

Learning to Cut by Watching Movies.

Alejandro Pardo Fabian Caba Heilbron Juan León Alcázar Ali K. Thabet Bernard Ghanem

End-to-End Dense Video Captioning with Parallel Decoding.

Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo

ViViT: A Video Vision Transformer.

Anurag Arnab Mostafa Dehghani Georg Heigold Chen Sun Mario Lucic Cordelia Schmid

Multiscale Vision Transformers.

Haoqi Fan Bo Xiong Karttikeya Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer

Where2Act: From Pixels to Actions for Articulated 3D Objects.

Kaichun Mo Leonidas J. Guibas Mustafa Mukadam Abhinav Gupta Shubham Tulsiani

Toward a Visual Concept Vocabulary for GAN Latent Space.

Sarah Schwettmann Evan Hernandez David Bau Samuel Klein Jacob Andreas Antonio Torralba

Online Multi-Granularity Distillation for GAN Compression.

Yuxi Ren Jie Wu Xuefeng Xiao Jianchao Yang

Scaling-up Disentanglement for Image Translation.

Aviv Gabbay Yedid Hoshen

DeepCAD: A Deep Generative Network for Computer-Aided Design Models.

Rundi Wu Chang Xiao Changxi Zheng

Multi-Class Multi-Instance Count Conditioned Adversarial Image Generation.

Amrutha Saseendran Kathrin Skubch Margret Keuper

Harnessing the Conditioning Sensorium for Improved Image Translation.

Cooper Nederhood Nicholas I. Kolkin Deqing Fu Jason Salavon

F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain.

Shin'ya Yamaguchi Sekitoshi Kanai

Dual Contrastive Loss and Attention for GANs.

Ning Yu Guilin Liu Aysegul Dundar Andrew Tao Bryan Catanzaro Larry Davis Mario Fritz

Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation.

Yuxiang Wei Yupeng Shi Xiao Liu Zhilong Ji Yuan Gao Zhongqin Wu Wangmeng Zuo

ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement.

Yuval Alaluf Or Patashnik Daniel Cohen-Or

When do GANs replicate? On the choice of dataset size.

Qianli Feng Chenqi Guo Fabian Benitez-Quiroz Aleix M. Martínez

Generative Layout Modeling using Constraint Graphs.

Wamiq Reyaz Para Paul Guerrero Tom Kelly Leonidas J. Guibas Peter Wonka

Extending Neural P-frame Codecs for B-frame Coding.

Reza Pourreza Taco Cohen

Searching for Robustness: Loss Learning for Noisy Classification Tasks.

Boyan Gao Henry Gouk Timothy M. Hospedales

Evolving Search Space for Neural Architecture Search.

Yuanzheng Ci Chen Lin Ming Sun Boyu Chen Hongwen Zhang Wanli Ouyang

AdaAttN: Revisit Attention Mechanism in Arbitrary Neural Style Transfer.

Songhua Liu Tianwei Lin Dongliang He Fu Li Meiling Wang Xin Li Zhengxing Sun Qian Li Errui Ding

PixelPyramids: Exact Inference Models from Lossless Image Pyramids.

Shweta Mahajan Stefan Roth

Domain Generalization via Gradient Surgery.

Lucas Mansilla Rodrigo Echeveste Diego H. Milone Enzo Ferrante

Semantic Perturbations with Normalizing Flows for Improved Generalization.

Oguz Kaan Yüksel Sebastian U. Stich Martin Jaggi Tatjana Chavdarova

Robust Trust Region for Weakly Supervised Segmentation.

Dmitrii Marin Yuri Boykov

Paint Transformer: Feed Forward Neural Painting with Stroke Prediction.

Songhua Liu Tianwei Lin Dongliang He Fu Li Ruifeng Deng Xin Li Errui Ding Hao Wang

Manifold Matching via Deep Metric Learning for Generative Modeling.

Mengyu Dai Haibin Hang

A Lazy Approach to Long-Horizon Gradient-Based Meta-Learning.

Muhammad Abdullah Jamal Liqiang Wang Boqing Gong

Self-Knowledge Distillation with Progressive Refinement of Targets.

Kyungyul Kim Byeongmoon Ji Doyoung Yoon Sangheum Hwang

Bias Loss for Mobile Neural Networks.

Lusine Abrahamyan Valentin Ziatchin Yiming Chen Nikos Deligiannis

SPatchGAN: A Statistical Feature Based Discriminator for Unsupervised Image-to-Image Translation.

Xuning Shao Weidong Zhang

Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds.

Siyuan Huang Yichen Xie Song-Chun Zhu Yixin Zhu

Learning Signed Distance Field for Multi-view Surface Reconstruction.

Jingyang Zhang Yao Yao Long Quan

Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds of Large Scenes with Learned Virtual View Visibility.

Shuang Song Zhaopeng Cui Rongjun Qin

SA-ConvONet: Sign-Agnostic Optimization of Convolutional Occupancy Networks.

Jiapeng Tang Jiabao Lei Dan Xu Feiying Ma Kui Jia Lei Zhang

JEM++: Improved Techniques for Training JEM.

Xiulong Yang Shihao Ji

Collaborative Optimization and Aggregation for Decentralized Domain Generalization and Adaptation.

Guile Wu Shaogang Gong

Generalized Shuffled Linear Regression.

Feiran Li Kent Fujiwara Fumio Okura Yasuyuki Matsushita

Progressive Correspondence Pruning by Consensus Learning.

Chen Zhao Yixiao Ge Feng Zhu Rui Zhao Hongsheng Li Mathieu Salzmann

Synchronization of Group-labelled Multi-graphs.

Andrea Porfiri Dal Cin Luca Magri Federica Arrigoni Andrea Fusiello Giacomo Boracchi

Learning with Noisy Labels for Robust Point Cloud Segmentation.

Shuquan Ye Dongdong Chen Songfang Han Jing Liao

Bootstrap Your Own Correspondences.

Mohamed El Banani Justin Johnson

Guided Point Contrastive Learning for Semi-supervised Point Cloud Semantic Segmentation.

Li Jiang Shaoshuai Shi Zhuotao Tian Xin Lai Shu Liu Chi-Wing Fu Jiaya Jia

Progressive Seed Generation Auto-encoder for Unsupervised Point Cloud Learning.

JuYoung Yang Pyunghwan Ahn Doyeon Kim Haeil Lee Junmo Kim

Geometry-Aware Self-Training for Unsupervised Domain Adaptation on Object Point Clouds.

Longkun Zou Hui Tang Ke Chen Kui Jia

WarpedGANSpace: Finding non-linear RBF paths in GAN latent space.

Christos Tzelepis Georgios Tzimiropoulos Ioannis Patras

DRB-GAN: A Dynamic ResBlock Generative Adversarial Network for Artistic Style Transfer.

Wenju Xu Chengjiang Long Ruisheng Wang Guanghui Wang

Gradient Normalization for Generative Adversarial Networks.

Yi-Lun Wu Hong-Han Shuai Zhi Rui Tam Hong-Yu Chiu

Auto Graph Encoder-Decoder for Neural Network Pruning.

Sixing Yu Arya Mazaheri Ali Jannesari

GNeRF: GAN-based Neural Radiance Field without Posed Camera.

Quan Meng Anpei Chen Haimin Luo Minye Wu Hao Su Lan Xu Xuming He Jingyi Yu

TMCOSS: Thresholded Multi-Criteria Online Subset Selection for Data-Efficient Autonomous Driving.

Soumi Das Harikrishna Patibandla Suparna Bhattacharya Kshounis Bera Niloy Ganguly Sourangshu Bhattacharya

Making Higher Order MOT Scalable: An Efficient Approximate Solver for Lifted Disjoint Paths.

Andrea Hornáková Timo Kaiser Paul Swoboda Michal Rolinek Bodo Rosenhahn Roberto Henschel

Fast Light-field Disparity Estimation with Multi-disparity-scale Cost Aggregation.

Zhicong Huang Xuemei Hu Zhou Xue Weizhu Xu Tao Yue

UASNet: Uncertainty Adaptive Sampling Network for Deep Stereo Matching.

Yamin Mao Zhihua Liu Weiming Li Yuchao Dai Qiang Wang Yun-Tae Kim Hong-Seok Lee

Learning to Match Features with Seeded Graph Matching Network.

Hongkai Chen Zixin Luo Jiahui Zhang Lei Zhou Xuyang Bai Zeyu Hu Chiew-Lan Tai Long Quan

Distilling Global and Local Logits with Densely Connected Relations.

Youmin Kim Jinbae Park YounHo Jang Muhammad Salman Ali Tae-Hyun Oh Sung-Ho Bae

FFT-OT: A Fast Algorithm for Optimal Transportation.

Na Lei Xianfeng Gu

Fusion Moves for Graph Matching.

Lisa Hutschenreiter Stefan Haller Lorenz Feineis Carsten Rother Dagmar Kainmüller Bogdan Savchynskyy

Faster Multi-Object Segmentation using Parallel Quadratic Pseudo-Boolean Optimization.

Niels Jeppesen Patrick M. Jensen Anders Nymark Christensen Anders B. Dahl Vedrana Andersen Dahl

Learning to Bundle-adjust: A Graph Network Approach to Faster Optimization of Bundle Adjustment for Vehicular SLAM.

Tetsuya Tanaka Yukihiro Sasagawa Takayuki Okatani

DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras.

Yang Zheng Ruizhi Shao Yuxiang Zhang Tao Yu Zerong Zheng Qionghai Dai Yebin Liu

iMAP: Implicit Mapping and Positioning in Real-Time.

Edgar Sucar Shikun Liu Joseph Ortiz Andrew J. Davison

On the Limits of Pseudo Ground Truth in Visual Camera Re-localisation.

Eric Brachmann Martin Humenberger Carsten Rother Torsten Sattler

COTR: Correspondence Transformer for Matching Across Images.

Wei Jiang Eduard Trulls Jan Hosang Andrea Tagliasacchi Kwang Moo Yi

Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers.

Zhaoshuo Li Xingtong Liu Nathan Drenkow Andy S. Ding Francis X. Creighton Russell H. Taylor Mathias Unberath

AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network.

Zizhuang Wei Qingtian Zhu Chen Min Yisong Chen Guoping Wang

Just a Few Points are All You Need for Multi-view Stereo: A Novel Semi-supervised Learning Method for Multi-view Stereo.

Taekyung Kim Jaehoon Choi Seokeon Choi Dongki Jung Changick Kim

A Confidence-based Iterative Solver of Depths and Surface Normals for Deep Multi-view Stereo.

Wang Zhao Shaohui Liu Yi Wei Hengkai Guo Yong-Jin Liu

PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility.

Jae Yong Lee Joseph DeGol Chuhang Zou Derek Hoiem

Rational Polynomial Camera Model Warping for Deep Learning Based Satellite Multi-View Stereo Matching.

Jian Gao Jin Liu Shunping Ji

A Robust Loss for Point Cloud Registration.

Zhi Deng Yuxin Yao Bailin Deng Juyong Zhang

Sampling Network Guided Cross-Entropy Method for Unsupervised Point Cloud Registration.

Haobo Jiang Yaqi Shen Jin Xie Jun Li Jianjun Qian Jian Yang

AdaFit: Rethinking Learning-based Normal Estimation on Point Clouds.

Runsong Zhu Yuan Liu Zhen Dong Yuan Wang Tengping Jiang Wenping Wang Bisheng Yang

(Just) A Spoonful of Refinements Helps the Registration Error Go Down.

Sérgio Agostinho Aljosa Osep Alessio Del Bue Laura Leal-Taixé

Pyramid Point Cloud Transformer for Large-Scale Place Recognition.

Le Hui Hang Yang Mingmei Cheng Jin Xie Jian Yang

Differentiable Surface Rendering via Non-Differentiable Sampling.

Forrester Cole Kyle Genova Avneesh Sud Daniel Vlasic Zhoutong Zhang

Digging into Uncertainty in Self-supervised Multi-view Stereo.

Hongbin Xu Zhipeng Zhou Yali Wang Wenxiong Kang Baigui Sun Hao Li Yu Qiao

Minimal Cases for Computing the Generalized Relative Pose using Affine Correspondences.

Banglei Guan Ji Zhao Daniel Barath Friedrich Fraundorfer

Cross-Descriptor Visual Localization and Mapping.

Mihai Dusmanu Ondrej Miksik Johannes L. Schönberger Marc Pollefeys

Stacked Homography Transformations for Multi-View Pedestrian Detection.

Liangchen Song Jialian Wu Ming Yang Qian Zhang Yuan Li Junsong Yuan

DepthInSpace: Exploitation and Fusion of Multiple Video Frames for Structured-Light Depth Estimation.

Mohammad Mahdi Johari Camilla Carta François Fleuret

Matching in the Dark: A Dataset for Matching Image Pairs of Low-light Scenes.

Wenzheng Song Masanori Suganuma Xing Liu Noriyuki Shimobayashi Daisuke Maruta Takayuki Okatani

Transfusion: A Novel SLAM Method Focused on Transparent Objects.

Yifan Zhu Jiaxiong Qiu Bo Ren

SaccadeCam: Adaptive Visual Attention for Monocular Depth Sensing.

Brevin Tilmon Sanjeev J. Koppal

ODAM: Object Detection, Association, and Mapping using Posed RGB Video.

Kejie Li Daniel DeTone Steven Chen Minh Vo Ian Reid Hamid Rezatofighi Chris Sweeney Julian Straub Richard A. Newcombe

Pixel-Perfect Structure-from-Motion with Featuremetric Refinement.

Philipp Lindenberger Paul-Edouard Sarlin Viktor Larsson Marc Pollefeys

Deep Permutation Equivariant Structure from Motion.

Dror Moran Hodaya Koslowsky Yoni Kasten Haggai Maron Meirav Galun Ronen Basri

STR-GQN: Scene Representation and Rendering for Unknown Cameras Based on Spatial Transformation Routing.

Wen-Cheng Chen Min-Chun Hu Chu-Song Chen

Learning Efficient Photometric Feature Transform for Multi-view Stereo.

Kaizhang Kang Cihui Xie Ruisheng Zhu Xiaohe Ma Ping Tan Hongzhi Wu Kun Zhou

ELLIPSDF: Joint Object Pose and Shape Optimization with a Bi-level Ellipsoid and Signed Distance Function Description.

Mo Shan Qiaojun Feng You-Yi Jau Nikolay Atanasov

Calibrated and Partially Calibrated Semi-Generalized Homographies.

Snehal Bhayani Torsten Sattler Daniel Barath Patrik Beliansky Janne Heikkilä Zuzana Kukelova

Dynamical Pose Estimation.

Heng Yang Chris Doran Jean-Jacques E. Slotine

Gaussian Fusion: Accurate 3D Reconstruction via Geometry-Guided Displacement Interpolation.

Duo Chen Zixin Tang Zhenyu Xu Yunan Zheng Yiguang Liu

Radial Distortion Invariant Factorization for Structure from Motion.

José Pedro Iglesias Carl Olsson

PoGO-Net: Pose Graph Optimization with Graph Neural Networks.

Xinyi Li Haibin Ling

Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis.

Ajay Jain Matthew Tancik Pieter Abbeel

Baking Neural Radiance Fields for Real-Time View Synthesis.

Peter Hedman Pratul P. Srinivasan Ben Mildenhall Jonathan T. Barron Paul E. Debevec

Nerfies: Deformable Neural Radiance Fields.

Keunhong Park Utkarsh Sinha Jonathan T. Barron Sofien Bouaziz Dan B. Goldman Steven M. Seitz Ricardo Martin-Brualla

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields.

Jonathan T. Barron Ben Mildenhall Matthew Tancik Peter Hedman Ricardo Martin-Brualla Pratul P. Srinivasan

Self-Calibrating Neural Radiance Fields.

Yoonwoo Jeong Seokjun Ahn Christopher B. Choy Animashree Anandkumar Minsu Cho Jaesik Park

LSD-StructureNet: Modeling Levels of Structural Detail in 3D Part Hierarchies.

Dominic Roberts Ara Danielyan Hang Chu Mani Golparvar Fard David A. Forsyth

3D Shape Generation and Completion through Point-Voxel Diffusion.

Linqi Zhou Yilun Du Jiajun Wu

ARAPReg: An As-Rigid-As Possible Regularization Loss for Learning Deformable Shape Generators.

Qixing Huang Xiangru Huang Bo Sun Zaiwei Zhang Junfeng Jiang Chandrajit Bajaj

Deep Hybrid Self-Prior for Full 3D Mesh Generation.

Xingkui Wei Zhengqing Chen Yanwei Fu Zhaopeng Cui Yinda Zhang

GTT-Net: Learned Generalized Trajectory Triangulation.

Xiangyu Xu Enrique Dunn

AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis.

Yudong Guo Keyu Chen Sen Liang Yong-Jin Liu Hujun Bao Juyong Zhang

Editing Conditional Radiance Fields.

Steven Liu Xiuming Zhang Zhoutong Zhang Richard Zhang Jun-Yan Zhu Bryan Russell

Neural Articulated Radiance Field.

Atsuhiro Noguchi Xiao Sun Stephen Lin Tatsuya Harada

PlenOctrees for Real-time Rendering of Neural Radiance Fields.

Alex Yu Ruilong Li Matthew Tancik Hao Li Ren Ng Angjoo Kanazawa

BARF: Bundle-Adjusting Neural Radiance Fields.

Chen-Hsuan Lin Wei-Chiu Ma Antonio Torralba Simon Lucey

EPP-MVSNet: Epipolar-assembling based Depth Prediction for Multi-view Stereo.

Xinjun Ma Yue Gong Qirui Wang Jingwei Huang Lei Chen Fan Yu

Multi-view 3D Reconstruction with Transformers.

Dan Wang Xinrui Cui Xun Chen Zhengxia Zou Tianyang Shi Septimiu Salcudean Z. Jane Wang Rabab Ward

Dynamic View Synthesis from Dynamic Monocular Video.

Chen Gao Ayush Saraf Johannes Kopf Jia-Bin Huang

Extreme Structure from Motion for Indoor Panoramas without Visual Overlaps.

Mohammad Amin Shabani Weilian Song Makoto Odamaki Hirochika Fujiki Yasutaka Furukawa

Pri3D: Can 3D Priors Help 2D Representation Learning?

Ji Hou Saining Xie Benjamin Graham Angela Dai Matthias Nießner

DeepPRO: Deep Partial Point Cloud Registration of Objects.

Donghoon Lee Onur C. Hamsici Steven Feng Prachee Sharma Thorsten Gernoth

3DeepCT: Learning Volumetric Scattering Tomography of Clouds.

Yael Sde-Chen Yoav Y. Schechner Vadim Holodovsky Eshkol Eytan

Learning Icosahedral Spherical Probability Map Based on Bingham Mixture Model for Vanishing Point Estimation.

Haoang Li Kai Chen Pyojin Kim Kuk-Jin Yoon Zhe Liu Kyungdon Joo Yun-Hui Liu

Adaptive Surface Reconstruction with Multiscale Convolutional Kernels.

Benjamin Ummenhofer Vladlen Koltun

Out-of-Core Surface Reconstruction via Global TGV Minimization.

Nikolai Poliarnyi

Scene Synthesis via Uncertainty-Driven Attribute Synchronization.

Haitao Yang Zaiwei Zhang Siming Yan Haibin Huang Chongyang Ma Yi Zheng Chandrajit Bajaj Qixing Huang

H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction.

Eduard Ramon Gil Triginer Janna Escur Albert Pumarola Jaime Garcia Giraldez Xavier Giró-i-Nieto Francesc Moreno-Noguer

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo.

Yi Wei Shaohui Liu Yongming Rao Wang Zhao Jiwen Lu Jie Zhou

PR-RRN: Pairwise-Regularized Residual-Recursive Networks for Non-rigid Structure-from-Motion.

Haitian Zeng Yuchao Dai Xin Yu Xiaohan Wang Yi Yang

UNISURF: Unifying Neural Implicit Surfaces and Radiance Fields for Multi-View Reconstruction.

Michael Oechsle Songyou Peng Andreas Geiger

Minimal Solutions for Panoramic Stitching Given Gravity Prior.

Yaqing Ding Daniel Barath Zuzana Kukelova

Orthographic-Perspective Epipolar Geometry.

Viktor Larsson Marc Pollefeys Magnus Oskarsson

Lightweight Multi-person Total Motion Capture Using Sparse Multi-view Cameras.

Yuxiang Zhang Zhe Li Liang An Mengcheng Li Tao Yu Yebin Liu

MBA-VO: Motion Blur Aware Visual Odometry.

Peidong Liu Xingxing Zuo Viktor Larsson Marc Pollefeys

Viewing Graph Solvability via Cycle Consistency.

Federica Arrigoni Andrea Fusiello Elisa Ricci Tomás Pajdla

Feature Interactive Representation for Point Cloud Registration.

Bingli Wu Jie Ma Gaojie Chen Pei An

4D Cloud Scattering Tomography.

Roi Ronen Yoav Y. Schechner Eshkol Eytan

Superpoint Network for Point Cloud Oversegmentation.

Le Hui Jia Yuan Mingmei Cheng Jin Xie Xiaoya Zhang Jian Yang

SnowflakeNet: Point Cloud Completion by Snowflake Point Deconvolution with Skip-Transformer.

Peng Xiang Xin Wen Yu-Shen Liu Yan-Pei Cao Pengfei Wan Wen Zheng Zhizhong Han

Distinctiveness oriented Positional Equilibrium for Point Cloud Registration.

Taewon Min Chonghyuk Song Eunseok Kim Inwook Shim

CanvasVAE: Learning to Generate Vector Graphic Documents.

Kota Yamaguchi

DeePSD: Automatic Deep Skinning And Pose Space Deformation For 3D Garment Animation.

Hugo Bertiche Meysam Madadi Emilio Tylson Sergio Escalera

imGHUM: Implicit Generative Models of 3D Human Shape and Articulated Pose.

Thiemo Alldieck Hongyi Xu Cristian Sminchisescu

Rotation Averaging in a Split Second: A Primal-Dual Method and a Closed-Form for Cycle Graphs.

Gabriel Moreira Manuel Marques João Paulo Costeira

Structure-from-Sherds: Incremental 3D Reassembly of Axially Symmetric Pots from Unordered and Mixed Fragment Collections.

Je Hyeong Hong Yoo Seong Jong Muhammad Zeeshan Arshad Young Min Kim Jinwook Kim

ZFlow: Gated Appearance Flow-based Virtual Try-on with 3D Priors.

Ayush Chopra Rishabh Jain Mayur Hemani Balaji Krishnamurthy

Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation.

Zechen Bai Yuta Nakashima Noa Garcia

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark.

Boying Wang Libo Zhang Longyin Wen Xianglong Liu Yanjun Wu

BEV-Net: Assessing Social Distancing Compliance by Joint People Localization and Geometric Reasoning.

Zhirui Dai Yuepeng Jiang Yi Li Bo Liu Antoni B. Chan Nuno Vasconcelos

SmartShadow: Artistic Shadow Drawing Tool for Line Drawings.

Lvmin Zhang Jinyue Jiang Yi Ji Chunping Liu

Fast and Efficient DNN Deployment via Deep Gaussian Transfer Learning.

Qi Sun Chen Bai Tinghuan Chen Hao Geng Xinyun Zhang Yang Bai Bei Yu

Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss.

Jung Hyun Lee Jihun Yun Sung Ju Hwang Eunho Yang

Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks.

Yikai Wang Yi Yang Fuchun Sun Anbang Yao

Towards Mixed-Precision Quantization of Neural Networks via Constrained Optimization.

Weihan Chen Peisong Wang Jian Cheng

Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search.

Mingzhu Shen Feng Liang Ruihao Gong Yuhang Li Chuming Li Chen Lin Fengwei Yu Junjie Yan Wanli Ouyang

Dynamic Dual Gating Neural Networks.

Fanrong Li Gang Li Xiangyu He Jian Cheng

Improving Generalization of Batch Whitening by Convolutional Unit Optimization.

Yooshin Cho Hanbyel Cho Youngsoo Kim Junmo Kim

Channel-wise Knowledge Distillation for Dense Prediction*.

Changyong Shu Yifan Liu Jianfei Gao Zheng Yan Chunhua Shen

Meta-Aggregator: Learning to Aggregate for 1-bit Graph Neural Networks.

Yongcheng Jing Yiding Yang Xinchao Wang Mingli Song Dacheng Tao

Generalizable Mixed-Precision Quantization via Attribution Rank Preservation.

Ziwei Wang Han Xiao Jiwen Lu Jie Zhou

Improving Neural Network Efficiency via Post-training Quantization with Adaptive Floating-Point.

Fangxin Liu Wenbo Zhao Zhezhi He Yanzhi Wang Zongwu Wang Changzhi Dai Xiaoyao Liang Li Jiang

Distance-aware Quantization.

Dohyung Kim Junghyup Lee Bumsub Ham

Improving Low-Precision Network Quantization via Bin Regularization.

Tiantian Han Dong Li Ji Liu Lu Tian Yi Shan

RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise Mixed Schemes and Multiple Precisions.

Sung-En Chang Yanyu Li Mengshu Sun Weiwen Jiang Sijia Liu Yanzhi Wang Xue Lin

GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization.

Yi Guo Huan Yuan Jianchao Tan Zhangyang Wang Sen Yang Ji Liu

Towards Memory-Efficient Neural Networks via Multi-Level in situ Generation.

Jiaqi Gu Hanqing Zhu Chenghao Feng Mingjie Liu Zixuan Jiang Ray T. Chen David Z. Pan

FATNN: Fast and Accurate Ternary Neural Networks*.

Peng Chen Bohan Zhuang Chunhua Shen

HIRE-SNN: Harnessing the Inherent Robustness of Energy-Efficient Deep Spiking Neural Networks by Training with Crafted Input Noise.

Souvik Kundu Massoud Pedram Peter A. Beerel

ReCU: Reviving the Dead Weights in Binary Neural Networks.

Zihan Xu Mingbao Lin Jianzhuang Liu Jie Chen Ling Shao Yue Gao Yonghong Tian Rongrong Ji

Bit-Mixer: Mixed-precision networks with runtime bit-width selection.

Adrian Bulat Georgios Tzimiropoulos

Unsupervised Curriculum Domain Adaptation for No-Reference Video Quality Assessment.

Pengfei Chen Leida Li Jinjian Wu Weisheng Dong Guangming Shi

SACoD: Sensor Algorithm Co-Design Towards Efficient CNN-powered Intelligent PhlatCam.

Yonggan Fu Yang Zhang Yue Wang Zhihan Lu Vivek Boominathan Ashok Veeraraghavan Yingyan Lin

BlockCopy: High-Resolution Video Processing with Block-Sparse Feature Propagation and Online Policies.

Thomas Verelst Tinne Tuytelaars

MUSIQ: Multi-scale Image Quality Transformer.

Junjie Ke Qifei Wang Yilin Wang Peyman Milanfar Feng Yang

Spectral Leakage and Rethinking the Kernel Size in CNNs.

Nergis Tomen Jan C. van Gemert

Entropy Maximization and Meta Classification for Out-of-Distribution Detection in Semantic Segmentation.

Robin Chan Matthias Rottmann Hanno Gottschalk

Pixel Difference Networks for Efficient Edge Detection.

Zhuo Su Wenzhe Liu Zitong Yu Dewen Hu Qing Liao Qi Tian Matti Pietikäinen Li Liu

Learning Multiple Pixelwise Tasks Based on Loss Scale Balancing.

Jae-Han Lee Chul Lee Chang-Su Kim

NASOA: Towards Faster Task-oriented Online Fine-tuning with a Zoo of Models.

Hang Xu Ning Kang Gengwei Zhang Chuanlong Xie Xiaodan Liang Zhenguo Li

Rethinking Deep Image Prior for Denoising.

Yeonsik Jo Se Young Chun Jonghyun Choi

BlockPlanner: City Block Generation with Vectorized Graph Representation.

Linning Xu Yuanbo Xiangli Anyi Rao Nanxuan Zhao Bo Dai Ziwei Liu Dahua Lin

Adaptive Curriculum Learning.

Yajing Kong Liu Liu Jun Wang Dacheng Tao

Student Customized Knowledge Distillation: Bridging the Gap Between Student and Teacher.

Yichen Zhu Yi Wang

Self-born Wiring for Neural Trees.

Ying Chen Feng Mao Jie Song Xinchao Wang Huiqiong Wang Mingli Song

Polarimetric Helmholtz Stereopsis.

Yuqi Ding Yu Ji Mingyuan Zhou Sing Bing Kang Jinwei Ye

DC-ShadowNet: Single-Image Hard and Soft Shadow Removal Using Unsupervised Domain-Classifier Guided Network.

Yeying Jin Aashish Sharma Robby T. Tan

Location-aware Single Image Reflection Removal.

Zheng Dong Ke Xu Yin Yang Hujun Bao Weiwei Xu Rynson W. H. Lau

Learning to Remove Refractive Distortions from Underwater Images.

Simron Thapa Nianyi Li Jinwei Ye

Towards Flexible Blind JPEG Artifacts Removal.

Jiaxi Jiang Kai Zhang Radu Timofte

Improving De-raining Generalization via Neural Reorganization.

Jie Xiao Man Zhou Xueyang Fu Aiping Liu Zheng-Jun Zha

Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning.

Yu Tian Guansong Pang Yuanhong Chen Rajvinder Singh Johan W. Verjans Gustavo Carneiro

Adaptive Graph Convolution for Point Cloud Analysis.

Haoran Zhou Yidan Feng Mingsheng Fang Mingqiang Wei Jing Qin Tong Lu

The Benefit of Distraction: Denoising Camera-Based Physiological Measurements using Inverse Attention.

Ewa Magdalena Nowara Daniel McDuff Ashok Veeraraghavan

A Machine Teaching Framework for Scalable Recognition.

Pei Wang Nuno Vasconcelos

iNAS: Integral NAS for Device-Aware Salient Object Detection.

Yuchao Gu Shang-Hua Gao Xu-Sheng Cao Peng Du Shao-Ping Lu Ming-Ming Cheng

Full-Duplex Strategy for Video Object Segmentation.

Ge-Peng Ji Keren Fu Zhe Wu Deng-Ping Fan Jianbing Shen Ling Shao

Collaborative Unsupervised Visual Representation Learning from Decentralized Data.

Weiming Zhuang Xin Gan Yonggang Wen Shuai Zhang Shuai Yi

Video Matting via Consistency-Regularized Graph Neural Networks.

Tiantian Wang Sifei Liu Yapeng Tian Kai Li Ming-Hsuan Yang

Dense Deep Unfolding Network with 3D-CNN Prior for Snapshot Compressive Imaging.

Zhuoyuan Wu Jian Zhang Chong Mou

EvIntSR-Net: Event Guided Multiple Latent Frames Reconstruction and Super-resolution.

Jin Han Yixin Yang Chu Zhou Chao Xu Boxin Shi

Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks.

Vivien Sainte Fare Garnot Loïc Landrieu

Attentive and Contrastive Learning for Joint Depth and Motion Field Estimation.

Seokju Lee François Rameau Fei Pan In So Kweon

R-SLAM: Optimizing Eye Tracking from Rolling Shutter Video of the Retina.

Jay Shenoy James Fong Jeffrey Tan Austin Roorda Ren Ng

Out-of-boundary View Synthesis Towards Full-Frame Video Stabilization.

Yufei Xu Jing Zhang Dacheng Tao

SSH: A Self-Supervised Framework for Image Harmonization.

Yifan Jiang He Zhang Jianming Zhang Yilin Wang Zhe L. Lin Kalyan Sunkavalli Simon Chen Sohrab Amirghodsi Sarah Kong Zhangyang Wang

Achieving on-Mobile Real-Time Super-Resolution with Neural Architecture and Pruning Search.

Zheng Zhan Yifan Gong Pu Zhao Geng Yuan Wei Niu Yushu Wu Tianyun Zhang Malith Jayaweera David R. Kaeli Bin Ren Xue Lin Yanzhi Wang

Deep Blind Video Super-resolution.

Jinshan Pan Haoran Bai Jiangxin Dong Jiawei Zhang Jinhui Tang

Learning A Single Network for Scale-Arbitrary Super-Resolution.

Longguang Wang Yingqian Wang Zaiping Lin Jungang Yang Wei An Yulan Guo

Designing a Practical Degradation Model for Deep Blind Image Super-Resolution.

Kai Zhang Jingyun Liang Luc Van Gool Radu Timofte

Real-world Video Super-resolution: A Benchmark Dataset and A Decomposition based Learning Scheme.

Xi Yang Wangmeng Xiang Hui Zeng Lei Zhang

Morphable Detector for Object Detection on Demand.

Xiangyun Zhao Xu Zou Ying Wu

DivAug: Plug-in Automated Data Augmentation with Explicit Diversity Maximization.

Zirui Liu Haifeng Jin Ting-Hsiang Wang Kaixiong Zhou Xia Hu

Unpaired Learning for Deep Image Deraining with Rain Direction Regularizer.

Yang Liu Ziyu Yue Jinshan Pan Zhixun Su

CANet: A Context-Aware Network for Shadow Removal.

Zipei Chen Chengjiang Long Ling Zhang Chunxia Xiao

HiNet: Deep Image Hiding by Invertible Network.

Junpeng Jing Xin Deng Mai Xu Jianyi Wang Zhenyu Guan

Visual Saliency Transformer.

Nian Liu Ni Zhang Kaiyuan Wan Ling Shao Junwei Han

Light Field Saliency Detection with Dual Local Graph Learning and Reciprocative Guidance.

Nian Liu Wangbo Zhao Dingwen Zhang Junwei Han Ling Shao

Mitigating Intensity Bias in Shadow Detection via Feature Decomposition and Reweighting.

Lei Zhu Ke Xu Zhanghan Ke Rynson W. H. Lau

High-Fidelity Pluralistic Image Completion with Transformers.

Ziyu Wan Jingbo Zhang Dongdong Chen Jing Liao

Specificity-preserving RGB-D Saliency Detection.

Tao Zhou Huazhu Fu Geng Chen Yi Zhou Deng-Ping Fan Ling Shao

DCT-SNN: Using DCT to Distribute Spatial Information over Time for Low-Latency Spiking Neural Networks.

Isha Garg Sayeed Shafayet Chowdhury Kaushik Roy

PnP-DETR: Towards Efficient Visual Analysis with Transformers.

Tao Wang Li Yuan Yunpeng Chen Jiashi Feng Shuicheng Yan

Cross-Patch Graph Convolutional Network for Image Denoising.

Yao Li Xueyang Fu Zheng-Jun Zha

Rethinking Coarse-to-Fine Approach in Single Image Deblurring.

Sung-Jin Cho Seo-Won Ji Jun-Pyo Hong Seung-Won Jung Sung-Jea Ko

Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation.

Jiaming Liu Ming Lu Kaixin Chen Xiaoqi Li Shizun Wang Zhaoqing Wang Enhua Wu Yurong Chen Chuang Zhang Ming Wu

RDI-Net: Relational Dynamic Inference Networks.

Huanyu Wang Songyuan Li Shihao Su Zequn Qin Xi Li

Low-Rank Tensor Completion by Approximating the Tensor Average Rank.

Zhanliang Wang Junyu Dong Xinguo Liu Xueying Zeng

Extensions of Karger's Algorithm: Why They Fail in Theory and How They Are Useful in Practice.

Erik Jenner Enrique Fita Sanmartín Fred A. Hamprecht

Rethinking Noise Synthesis and Modeling in Raw Denoising.

Yi Zhang Hongwei Qin Xiaogang Wang Hongsheng Li

Score-Based Point Cloud Denoising.

Shitong Luo Wei Hu

Real-Time Video Inference on Edge Devices via Adaptive Model Streaming.

Mehrdad Khani Shirkoohi Pouya Hamadanian Arash Nasr-Esfahany Mohammad Alizadeh

Augmenting Depth Estimation with Geospatial Context.

Scott Workman Hunter Blanton

Robust Automatic Monocular Vehicle Speed Estimation for Traffic Surveillance.

Jérôme Revaud Martin Humenberger

SUNet: Symmetric Undistortion Network for Rolling Shutter Correction.

Bin Fan Yuchao Dai Mingyi He

Bringing Events into Video Deblurring with Non-consecutively Blurry Frames.

Wei Shang Dongwei Ren Dongqing Zou Jimmy S. Ren Ping Luo Wangmeng Zuo

Efficient Video Compression via Content-Adaptive Super-Resolution.

Mehrdad Khani Shirkoohi Vibhaalakshmi Sivaraman Mohammad Alizadeh

ResRep: Lossless CNN Pruning via Decoupling Remembering and Forgetting.

Xiaohan Ding Tianxiang Hao Jianchao Tan Ji Liu Jungong Han Yuchen Guo Guiguang Ding

A New Journey from SDRTV to HDRTV.

Xiangyu Chen Zhengwen Zhang Jimmy S. Ren Lynhoo Tian Yu Qiao Chao Dong

Self-Conditioned Probabilistic Learning of Video Rescaling.

Yuan Tian Guo Lu Xiongkuo Min Zhaohui Che Guangtao Zhai Guodong Guo Zhiyong Gao

Event Stream Super-Resolution via Spatiotemporal Constraint Learning.

Siqi Li Yutong Feng Yipeng Li Yu Jiang Changqing Zou Yue Gao

Super-Resolving Cross-Domain Face Miniatures by Peeking at One-Shot Exemplar.

Peike Li Xin Yu Yi Yang

Representative Color Transform for Image Enhancement.

Hanul Kim Su-Min Choi Chang-Su Kim Yeong Jun Koh

Ultra-High-Definition Image HDR Reconstruction via Collaborative Bilateral Learning.

Zhuoran Zheng Wenqi Ren Xiaochun Cao Tao Wang Xiuyi Jia

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement.

Chuanjun Zheng Daming Shi Wentian Shi

Omniscient Video Super-Resolution.

Peng Yi Zhongyuan Wang Kui Jiang Junjun Jiang Tao Lu Xin Tian Jiayi Ma

Federated Learning for Non-IID Data via Unified Feature Learning and Optimization Objective Alignment.

Lin Zhang Yong Luo Yan Bai Bo Du Ling-Yu Duan

MixMix: All You Need for Data-Free Compression Are Feature and Data Mixing.

Yuhang Li Feng Zhu Ruihao Gong Mingzhu Shen Xin Dong Fengwei Yu Shaoqing Lu Shi Gu

Zero-Shot Day-Night Domain Adaptation with a Physics Prior.

Attila Lengyel Sourav Garg Michael Milford Jan C. van Gemert

Multi-Level Curriculum for Training A Distortion-Aware Barrel Distortion Rectification Model.

Kang Liao Chunyu Lin Lixin Liao Yao Zhao Weiyao Lin

Equivariant Imaging: Learning Beyond the Range Space.

Dongdong Chen Julián Tachella Mike E. Davies

Learning Unsupervised Metaformer for Anomaly Detection.

Jhih-Ciang Wu Ding-Jie Chen Chiou-Shann Fuh Tyng-Luh Liu

Deep Structured Instance Graph for Distilling Object Detectors.

Yixin Chen Pengguang Chen Shu Liu Liwei Wang Jiaya Jia

Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision.

Zhilu Zhang Haolin Wang Ming Liu Ruohao Wang Jiawei Zhang Wangmeng Zuo

RGB-D Saliency Detection via Cascaded Mutual Information Minimization.

Jing Zhang Deng-Ping Fan Yuchao Dai Xin Yu Yiran Zhong Nick Barnes Ling Shao

Dynamic Attentive Graph Learning for Image Restoration.

Chong Mou Jian Zhang Zhuoyuan Wu

Unsupervised Real-World Super-Resolution: A Domain Adaptation Perspective.

Wei Wang Haochen Zhang Zehuan Yuan Changhu Wang

Learning Frequency-aware Dynamic Network for Efficient Super-Resolution.

Wenbin Xie Dehua Song Chang Xu Chunjing Xu Hui Zhang Yunhe Wang

Pyramid Architecture Search for Real-Time Image Deblurring.

Xiaobin Hu Wenqi Ren Kaicheng Yu Kaihao Zhang Xiaochun Cao Wei Liu Bjoern H. Menze

Dynamic High-Pass Filtering and Multi-Spectral Attention for Image Super-Resolution.

Salma Abdel Magid Yulun Zhang Donglai Wei Won-Dong Jang Zudi Lin Yun Fu Hanspeter Pfister

Context Reasoning Attention Network for Image Super-Resolution.

Yulun Zhang Donglai Wei Can Qin Huan Wang Hanspeter Pfister Yun Fu

End-to-end Piece-wise Unwarping of Document Images.

Sagnik Das Kunwar Yashraj Singh Jon Wu Erhan Bas Vijay Mahadevan Rahul Bhotika Dimitris Samaras

Event-Intensity Stereo: Estimating Depth by the Best of Both Worlds.

S. Mohammad Mostafavi I. Kuk-Jin Yoon Jonghyun Choi

ReconfigISP: Reconfigurable Camera Image Processing Pipeline.

Ke Yu Zexian Li Yue Peng Chen Change Loy Jinwei Gu

Structure-Preserving Deraining with Residue Channel Prior Guidance.

Qiaosi Yi Juncheng Li Qinyan Dai Faming Fang Guixu Zhang Tieyong Zeng

Inverting a Rolling Shutter Camera: Bring Rolling Shutter Images to High Framerate Global Shutter Video.

Bin Fan Yuchao Dai

TransView: Inside, Outside, and Across the Cropping View Boundaries.

Zhiyu Pan Zhiguo Cao Kewei Wang Hao Lu Weicai Zhong

Exploring Visual Engagement Signals for Representation Learning.

Menglin Jia Zuxuan Wu Austin Reiter Claire Cardie Serge J. Belongie Ser-Nam Lim

ALL Snow Removed: Single Image Desnowing Algorithm Using Hierarchical Dual-tree Complex Wavelet Representation and Contradict Channel Loss.

Wei-Ting Chen Hao-Yu Fang Cheng-Lin Hsieh Cheng-Che Tsai I-Hsiang Chen Jian-Jiun Ding Sy-Yen Kuo

PlaneTR: Structure-Guided Transformers for 3D Plane Recovery.

Bin Tan Nan Xue Song Bai Tianfu Wu Gui-Song Xia

Light Source Guided Single-Image Flare Removal from Unpaired Data.

Xiaotian Qiao Gerhard P. Hancke Rynson W. H. Lau

Summarize and Search: Learning Consensus-aware Dynamic Convolution for Co-Saliency Detection.

Ni Zhang Junwei Han Nian Liu Ling Shao

Scene Context-Aware Salient Object Detection.

Avishek Siris Jianbo Jiao Gary K. L. Tam Xianghua Xie Rynson W. H. Lau

Uncertainty-Guided Transformer Reasoning for Camouflaged Object Detection.

Fan Yang Qiang Zhai Xin Li Rui Huang Ao Luo Hong Cheng Deng-Ping Fan

MFNet: Multi-filter Directive Network for Weakly Supervised Salient Object Detection.

Yongri Piao Jian Wang Miao Zhang Huchuan Lu

StarEnhancer: Learning Real-Time and Style-Aware Image Enhancement.

Yuda Song Hui Qian Xin Du

Perceptual Variousness Motion Deblurring with Light Global Context Refinement.

Jichun Li Weimin Tan Bo Yan

STAR: A Structure-aware Lightweight Transformer for Real-time Image Enhancement.

Zhaoyang Zhang Yitong Jiang Jun Jiang Xiaogang Wang Ping Luo Jinwei Gu

Mutual Affine Network for Spatially Variant Kernel Estimation in Blind Image Super-Resolution.

Jingyun Liang Guolei Sun Kai Zhang Luc Van Gool Radu Timofte

Learning Dual Priors for JPEG Compression Artifacts Removal.

Xueyang Fu Xi Wang Aiping Liu Junwei Han Zheng-Jun Zha

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling.

Jingyun Liang Andreas Lugmayr Kai Zhang Martin Danelljan Luc Van Gool Radu Timofte

CryoDRGN2: Ab initio neural reconstruction of 3D protein structures from real cryo-EM images.

Ellen D. Zhong Adam Lerer Joseph H. Davis Bonnie Berger

Self-Supervised Cryo-Electron Tomography Volumetric Image Restoration from Single Noisy Volume with Sparsity Constraint.

Zhidong Yang Fa Zhang Renmin Han

Deep survival analysis with longitudinal X-rays for COVID-19.

Michelle Shu Richard Strong Bowen Charles Herrmann Gengmo Qi Michele Santacatterina Ramin Zabih

Mutual-Complementing Framework for Nuclei Detection and Segmentation in Pathology Image.

Zunlei Feng Zhonghua Wang Xinchao Wang Yining Mao Thomas Li Jie Lei Yuexuan Wang Mingli Song

CDNet: Centripetal Direction Network for Nuclear Instance Segmentation.

Hongliang He Zhongyi Huang Yao Ding Guoli Song Lin Wang Qian Ren Pengxu Wei Zhiqiang Gao Jie Chen

Multimodal Co-Attention Transformer for Survival Prediction in Gigapixel Whole Slide Images.

Richard J. Chen Ming Y. Lu Wei-Hung Weng Tiffany Y. Chen Drew F. K. Williamson Trevor Manz Maha Shady Faisal Mahmood

Multi-Class Cell Detection Using Spatial Context Representation.

Shahira Abousamra David Belinsky John S. Van Arnam Felicia Allard Eric Yee Rajarsi Gupta Tahsin M. Kurç Dimitris Samaras Joel H. Saltz Chao Chen

The Way to my Heart is through Contrastive Learning: Remote Photoplethysmography from Unlabelled Video.

John Gideon Simon Stent

Visual-Textual Attentive Semantic Consistency for Medical Report Generation.

Yi Zhou Lei Huang Tao Zhou Huazhu Fu Ling Shao

RFNet: Region-aware Fusion Network for Incomplete Multi-modal Brain Tumor Segmentation.

Yuhang Ding Xin Yu Yi Yang

T-AutoML: Automated Machine Learning for Lesion Segmentation using Transformers in 3D Medical Imaging.

Dong Yang Andriy Myronenko Xiaosong Wang Ziyue Xu Holger R. Roth Daguang Xu

Semantic Aware Data Augmentation for Cell Nuclei Microscopical Images with Artificial Neural Networks.

Alireza Naghizadeh Hongye Xu Mohab Mohamed Dimitris N. Metaxas Dongfang Liu

GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition.

Shih-Cheng Huang Liyue Shen Matthew P. Lungren Serena Yeung

Generative Adversarial Registration for Improved Conditional Deformable Templates.

Neel Dey Mengwei Ren Adrian V. Dalca Guido Gerig

Recurrent Mask Refinement for Few-Shot Medical Image Segmentation.

Hao Tang Xingwei Liu Shanlin Sun Xiangyi Yan Xiaohui Xie

Re-Aging GAN: Toward Personalized Face Age Transformation.

Farkhod Makhmudkhujaev Sungeun Hong In Kyu Park

Towards Face Encryption by Generating Adversarial Identity Masks.

Xiao Yang Yinpeng Dong Tianyu Pang Hang Su Jun Zhu Yuefeng Chen Hui Xue

Retrieve in Style: Unsupervised Facial Feature Transfer and Retrieval.

Min Jin Chong Wen-Sheng Chu Abhishek Kumar David A. Forsyth

Disentangled Lifespan Face Synthesis.

Sen He Wentong Liao Michael Ying Yang Yi-Zhe Song Bodo Rosenhahn Tao Xiang

FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning.

Chenxu Zhang Yifan Zhao Yifei Huang Ming Zeng Saifeng Ni Madhukar Budagavi Xiaohu Guo

End-to-end robust joint unsupervised image alignment and clustering.

Xiangrui Zeng Gregory Howe Min Xu

Learn to Cluster Faces via Pairwise Classification.

Junfu Liu Di Qiu Pengfei Yan Xiaolin Wei

Generalizing Gaze Estimation with Outlier-guided Collaborative Adaptation.

Yunfei Liu Ruicong Liu Haofei Wang Feng Lu

Topologically Consistent Multi-View Face Inference Using Volumetric Sampling.

Tianye Li Shichen Liu Timo Bolkart Jiayi Liu Hao Li Yajie Zhao

DAM: Discrepancy Alignment Metric for Face Recognition.

Jiaheng Liu Yudong Wu Yichao Wu Chuming Li Xiaolin Hu Ding Liang Mengyu Wang

Physics-Enhanced Machine Learning for Virtual Fluorescence Microscopy.

Colin L. V. Cooke Fanjie Kong Amey Chaware Kevin C. Zhou Kanghyun Kim Rong Xu D. Michael Ando Samuel J. Yang Pavan Chandra Konda Roarke Horstmeyer

DWKS : A Local Descriptor of Deformations Between Meshes and Point Clouds.

Robin Magnet Maks Ovsjanikov

CrackFormer: Transformer Network for Fine-Grained Crack Detection.

Huajun Liu Xiangyu Miao Christoph Mertz Chengzhong Xu Hui Kong

CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution.

Lizhe Liu Xiaohao Chen Siyu Zhu Ping Tan

Multi-Echo LiDAR for 3D Object Detection.

Yunze Man Xinshuo Weng Prasanna Kumar Sivakumar Matthew O'Toole Kris Kitani

Towards Efficient Graph Convolutional Networks for Point Cloud Handling.

Yawei Li He Chen Zhaopeng Cui Radu Timofte Marc Pollefeys Gregory S. Chirikjian Luc Van Gool

Looking here or there? Gaze Following in 360-Degree Images.

Yunhao Li Wei Shen Zhongpai Gao Yucheng Zhu Guangtao Zhai Guodong Guo

Real-time Vanishing Point Detector Integrating Under-parameterized RANSAC and Hough Transform.

Jianping Wu Liang Zhang Ye Liu Ke Chen

Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud.

Mingtao Feng Zhen Li Qi Li Liang Zhang Xiangdong Zhang Guangming Zhu Hui Zhang Yaonan Wang Ajmal Mian

VENet: Voting Enhancement Network for 3D Object Detection.

Qian Xie Yu-Kun Lai Jing Wu Zhoutao Wang Dening Lu Mingqiang Wei Jun Wang

Cross-Encoder for Unsupervised Gaze Representation Learning.

Yunjia Sun Jiabei Zeng Shiguang Shan Xilin Chen

Disentangled Representation for Age-Invariant Face Recognition: A Mutual Information Minimization Perspective.

Xuege Hou Yali Li Shengjin Wang

Fake it till you make it: face analysis in the wild using synthetic data alone.

Erroll Wood Tadas Baltrusaitis Charlie Hewitt Sebastian Dziadzio Thomas J. Cashman Jamie Shotton

Teacher-Student Adversarial Depth Hallucination to Improve Face Recognition.

Hardik Uppal Alireza Sepas-Moghaddam Michael A. Greenspan Ali Etemad

Meta Pairwise Relationship Distillation for Unsupervised Person Re-identification.

Haoxuanye Ji Le Wang Sanping Zhou Wei Tang Nanning Zheng Gang Hua

Conditional DETR for Fast Training Convergence.

Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei Sun Jingdong Wang

Mutual Supervision for Dense Object Detection.

Ziteng Gao Limin Wang Gangshan Wu

Reconcile Prediction Consistency for Balanced Object Detection.

Keyang Wang Lei Zhang

Fast Convergence of DETR with Spatially Modulated Co-Attention.

Peng Gao Minghang Zheng Xiaogang Wang Jifeng Dai Hongsheng Li

Rethinking Transformer-based Set Prediction for Object Detection.

Zhiqing Sun Shengcao Cao Yiming Yang Kris Kitani

TransFER: Learning Relation-aware Facial Expression Representations with Transformers.

Fanglei Xue Qiangchang Wang Guodong Guo

G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation.

Lewei Yao Renjie Pi Hang Xu Wei Zhang Zhenguo Li Tong Zhang

Disentangled High Quality Salient Object Detection.

Lv Tang Bo Li Yijie Zhong Shouhong Ding Mofei Song

SimROD: A Simple Adaptation Method for Robust Object Detection.

Rindra Ramamonjison Amin Banitalebi-Dehkordi Xinyu Kang Xiaolong Bai Yong Zhang

DualPoseNet: Category-level 6D Object Pose and Size Estimation Using Dual Pose Network with Refined Learning of Pose Consistency.

Jiehong Lin Zewei Wei Zhihao Li Songcen Xu Kui Jia Yuanqing Li

Visual Relationship Detection Using Part-and-Sum Transformers with Composite Queries.

Qi Dong Zhuowen Tu Haofu Liao Yuting Zhang Vijay Mahadevan Stefano Soatto

FMODetect: Robust Detection of Fast Moving Objects.

Denys Rozumnyi Jirí Matas Filip Sroubek Marc Pollefeys Martin R. Oswald

Towards Rotation Invariance in Object Detection.

Agastya Kalra Guy Stoppi Bradley Brown Rishav Agarwal Achuta Kadambi

Oriented R-CNN for Object Detection.

Xingxing Xie Gong Cheng Jiabao Wang Xiwen Yao Junwei Han

TOOD: Task-aligned One-stage Object Detection.

Chengjian Feng Yujie Zhong Yu Gao Matthew R. Scott Weilin Huang

Preservational Learning Improves Self-supervised Medical Image Models by Reconstructing Diverse Contexts.

Hong-Yu Zhou Chixiang Lu Sibei Yang Xiaoguang Han Yizhou Yu

Collaborative and Adversarial Learning of Focused and Dispersive Representations for Semi-supervised Polyp Segmentation.

Huisi Wu Guilian Chen Zhenkun Wen Jing Qin

Big Self-Supervised Models Advance Medical Image Classification.

Shekoofeh Azizi Basil Mustafa Fiona Ryan Zachary Beaver Jan Freyberg Jonathan Deaton Aaron Loh Alan Karthikesalingam Simon Kornblith Ting Chen Vivek Natarajan Mohammad Norouzi

Learning Hierarchical Graph Neural Networks for Image Clustering.

Yifan Xing Tong He Tianjun Xiao Yongxin Wang Yuanjun Xiong Wei Xia David Wipf Zheng Zhang Stefano Soatto

FASA: Feature Augmentation and Sampling Adaptation for Long-Tailed Instance Segmentation.

Yuhang Zang Chen Huang Chen Change Loy

Semi-Supervised Active Learning with Temporal Output Discrepancy.

Siyu Huang Tianyang Wang Haoyi Xiong Jun Huan Dejing Dou

Training Multi-Object Detector by Estimating Bounding Box Distribution for Input Image.

Jaeyoung Yoo Hojun Lee Inseop Chung Geonseok Seo Nojun Kwak

Normalization Matters in Weakly Supervised Object Localization.

Jeesoo Kim Junsuk Choe Sangdoo Yun Nojun Kwak

Exploring Classification Equilibrium in Long-Tailed Object Detection.

Chengjian Feng Yujie Zhong Weilin Huang

DiscoBox: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision.

Shiyi Lan Zhiding Yu Christopher B. Choy Subhashree Radhakrishnan Guilin Liu Yuke Zhu Larry S. Davis Anima Anandkumar

ICON: Learning Regular Maps Through Inverse Consistency.

Hastings Greer Roland Kwitt François-Xavier Vialard Marc Niethammer

Foreground Activation Maps for Weakly Supervised Object Localization.

Meng Meng Tianzhu Zhang Qi Tian Yongdong Zhang Feng Wu

Learning to Better Segment Objects from Unseen Classes with Unlabeled Videos.

Yuming Du Yang Xiao Vincent Lepetit

Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework.

Qingyu Song Changan Wang Zhengkai Jiang Yabiao Wang Ying Tai Chengjie Wang Jilin Li Feiyue Huang Yang Wu

Multi-scale Matching Networks for Semantic Correspondence.

Dongyang Zhao Ziyang Song Zhenghao Ji Gangming Zhao Weifeng Ge Yizhou Yu

Long-Term Temporally Consistent Unpaired Video Translation from Simulated Surgical 3D Data.

Dominik Rivoir Micha Pfeiffer Reuben Docea Fiona Kolbinger Carina Riediger Jürgen Weitz Stefanie Speidel

Personalized and Invertible Face De-identification by Disentangled Identity Information Manipulation.

Jingyi Cao Bo Liu Yunqian Wen Rong Xie Li Song

GarmentNets: Category-Level Pose Estimation for Garments via Canonical Space Shape Completion.

Cheng Chi Shuran Song

PICCOLO: Point Cloud-Centric Omnidirectional Localization.

Junho Kim Changwoon Choi Hojun Jang Young Min Kim

RePOSE: Fast 6D Object Pose Refinement via Deep Texture Rendering.

Shun Iwase Xingyu Liu Rawal Khirodkar Rio Yokota Kris M. Kitani

Exploring Geometry-aware Contrast and Clustering Harmonization for Self-supervised 3D Object Detection.

Hanxue Liang Chenhan Jiang Dapeng Feng Xin Chen Hang Xu Xiaodan Liang Wei Zhang Zhenguo Li Luc Van Gool

You Don't Only Look Once: Constructing Spatial-Temporal Memory for Integrated 3D Object Detection and Tracking.

Jiaming Sun Yiming Xie Siyu Zhang Linghao Chen Guofeng Zhang Hujun Bao Xiaowei Zhou

RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection.

Yongming Rao Benlin Liu Yi Wei Jiwen Lu Cho-Jui Hsieh Jie Zhou

Multi-Source Domain Adaptation for Object Detection.

Xingxu Yao Sicheng Zhao Pengfei Xu Jufeng Yang

Query Adaptive Few-Shot Object Detection with Heterogeneous Graph Convolutional Networks.

Guangxing Han Yicheng He Shiyuan Huang Jiawei Ma Shih-Fu Chang

Continual Learning for Image-Based Camera Localization.

Shuzhe Wang Zakaria Laskar Iaroslav Melekhov Xiaotian Li Juho Kannala

Efficient Large Scale Inlier Voting for Geometric Vision Problems.

Dror Aiger Simon Lynen Jan Hosang Bernhard Zeisl

Uniformity in Heterogeneity: Diving Deep into Count Interval Partition for Crowd Counting.

Changan Wang Qingyu Song Boshen Zhang Yabiao Wang Ying Tai Xuyi Hu Chengjie Wang Jilin Li Jiayi Ma Yang Wu

Are we Missing Confidence in Pseudo-LiDAR Methods for Monocular 3D Object Detection?

Andrea Simonelli Samuel Rota Bulò Lorenzo Porzi Peter Kontschieder Elisa Ricci

Exploiting sample correlation for crowd counting with multi-expert network.

Xinyan Liu Guorong Li Zhenjun Han Weigang Zhang Yifan Yang Qingming Huang Nicu Sebe

Towards A Universal Model for Cross-Dataset Crowd Counting.

Zhiheng Ma Xiaopeng Hong Xing Wei Yunfeng Qiu Yihong Gong

CrossDet: Crossline Representation for Object Detection.

Heqian Qiu Hongliang Li Qingbo Wu Jianhua Cui Zichen Song Lanxiao Wang Minjian Zhang

Detecting Invisible People.

Tarasha Khurana Achal Dave Deva Ramanan

Voxel Transformer for 3D Object Detection.

Jiageng Mao Yujing Xue Minzhe Niu Haoyue Bai Jiashi Feng Xiaodan Liang Hang Xu Chunjing Xu

LIGA-Stereo: Learning LiDAR Geometry Aware Representations for Stereo-based 3D Detector.

Xiaoyang Guo Shaoshuai Shi Xiaogang Wang Hongsheng Li

Is Pseudo-Lidar needed for Monocular 3D Object detection?

Dennis Park Rares Ambrus Vitor Guizilini Jie Li Adrien Gaidon

OMNet: Learning Overlapping Mask for Partial-to-Partial Point Cloud Registration.

Hao Xu Shuaicheng Liu Guangfu Wang Guanghui Liu Bing Zeng

Multi-Instance Pose Networks: Rethinking Top-Down Pose Estimation.

Rawal Khirodkar Visesh Chari Amit Agrawal Ambrish Tyagi

Geometry Uncertainty Projection Network for Monocular 3D Object Detection.

Yan Lu Xinzhu Ma Lei Yang Tianzhu Zhang Yating Liu Qi Chu Junjie Yan Wanli Ouyang

MLVSNet: Multi-level Voting Siamese Network for 3D Visual Tracking.

Zhoutao Wang Qian Xie Yu-Kun Lai Jing Wu Kun Long Jun Wang

Causal Attention for Unbiased Visual Recognition.

Tan Wang Chang Zhou Qianru Sun Hanwang Zhang

ADNet: Leveraging Error-Bias Towards Normal Direction in Face Alignment.

Yangyu Huang Hao Yang Chong Li Jongyoo Kim Fangyun Wei

CaT: Weakly Supervised Object Detection with Category Transfer.

Tianyue Cao Lianyu Du Xiaoyun Zhang Siheng Chen Ya Zhang Yan-Feng Wang

End-to-End Semi-Supervised Object Detection with Soft Teacher.

Mengde Xu Zheng Zhang Han Hu Jianfeng Wang Lijuan Wang Fangyun Wei Xiang Bai Zicheng Liu

Robust Small-scale Pedestrian Detection with Cued Recall via Memory Learning.

Jung Uk Kim Sungjune Park Yong Man Ro

Large-scale Robust Deep AUC Maximization: A New Surrogate Loss and Empirical Studies on Medical Image Classification.

Zhuoning Yuan Yan Yan Milan Sonka Tianbao Yang

DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training.

Kun Yuan Yiming Chen Xinmeng Huang Yingya Zhang Pan Pan Yinghui Xu Wotao Yin

Switchable K-class Hyperplanes for Noise-Robust Representation Learning.

Boxiao Liu Guanglu Song Manyuan Zhang Haihang You Yu Liu

Rank & Sort Loss for Object Detection and Instance Segmentation.

Kemal Oksuz Baris Can Cam Emre Akbas Sinan Kalkan

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding.

Pengchuan Zhang Xiyang Dai Jianwei Yang Bin Xiao Lu Yuan Lei Zhang Jianfeng Gao

Dynamic DETR: End-to-End Object Detection with Dynamic Attention.

Xiyang Dai Yinpeng Chen Jianwei Yang Pengchuan Zhang Lu Yuan Lei Zhang

WB-DETR: Transformer-Based Detector without Backbone.

Fanfan Liu Haoran Wei Wenzhe Zhao Guozhen Li Jingquan Peng Zihao Li

ELSD: Efficient Line Segment Detector and Descriptor.

Haotian Zhang Yicheng Luo Fangbo Qin Yijia He Xiao Liu

Body-Face Joint Detection via Embedding and Head Hook.

Junfeng Wan Jiangfan Deng Xiaosong Qiu Feng Zhou

Group-Free 3D Object Detection via Transformers.

Ze Liu Zheng Zhang Yue Cao Han Hu Xin Tong

Gated3D: Monocular 3D Object Detection From Temporal Illumination Cues.

Frank D. Julca-Aguilar Jason Taylor Mario Bijelic Fahim Mannan Ethan Tseng Felix Heide

3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds.

Lichen Zhao Daigang Cai Lu Sheng Dong Xu

RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection.

Lue Fan Xuan Xiong Feng Wang Naiyan Wang Zhaoxiang Zhang

An End-to-End Transformer Model for 3D Object Detection.

Ishan Misra Rohit Girdhar Armand Joulin

Semi-supervised Active Learning for Semi-supervised Models: Exploit Adversarial Examples with Graph-based Virtual Labels.

Jiannan Guo Haochen Shi Yangyang Kang Kun Kuang Siliang Tang Zhuoren Jiang Changlong Sun Fei Wu Yueting Zhuang

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization.

Wei Gao Fang Wan Xingjia Pan Zhiliang Peng Qi Tian Zhenjun Han Bolei Zhou Qixiang Ye

Boosting Weakly Supervised Object Detection via Learning Bounding Box Adjusters.

Bowen Dong Zitong Huang Yuelin Guo Qilong Wang Zhenxing Niu Wangmeng Zuo

PreDet: Large-scale weakly supervised pre-training for detection.

Vignesh Ramanathan Rui Wang Dhruv Mahajan

Human Detection and Segmentation via Multi-view Consensus.

Isinsu Katircioglu Helge Rhodin Jörg Spörri Mathieu Salzmann Pascal Fua

Self-Supervised Image Prior Learning with GMM from a Single Noisy Image.

Haosen Liu Xuan Liu Jiangbo Lu Shan Tan

Weakly Supervised 3D Semantic Segmentation Using Cross-Image Consensus and Inter-Voxel Affinity Relations.

Xiaoyu Zhu Jeffrey Chen Xiangrui Zeng Junwei Liang Chengqi Li Sinuo Liu Sima Behpour Min Xu

Prior to Segment: Foreground Cues for Weakly Annotated Classes in Partially Supervised Instance Segmentation.

David Biertimpel Sindi Shkodrani Anil S. Baslamisli Nóra Baka

Sparse-shot Learning with Exclusive Cross-Entropy for Extremely Many Localisations.

Andreas Panteli Jonas Teuwen Hugo M. Horlings Efstratios Gavves

Contrastive Attention Maps for Self-supervised Co-localization.

Minsong Ki Youngjung Uh Junsuk Choe Hyeran Byun

PR-GCN: A Deep Graph Convolutional Network with Point Refinement for 6D Pose Estimation.

Guangyuan Zhou Huiqun Wang Jiaxin Chen Di Huang

Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks.

Zhihao Liang Zhihao Li Songcen Xu Mingkui Tan Kui Jia

SGPA: Structure-Guided Prior Adaptation for Category-Level 6D Object Pose Estimation.

Kai Chen Qi Dou

GraphFPN: Graph Feature Pyramid Network for Object Detection.

Gangming Zhao Weifeng Ge Yizhou Yu

HPNet: Deep Primitive Segmentation Using Hybrid Representations.

Siming Yan Zhenpei Yang Chongyang Ma Haibin Huang Etienne Vouga Qixing Huang

Improving 3D Object Detection with Channel-wise Transformer.

Hualian Sheng Sijia Cai Yuan Liu Bing Deng Jianqiang Huang Xian-Sheng Hua Min-Jian Zhao

Learning Multi-Scene Absolute Pose Regression with Transformers.

Yoli Shavit Ron Ferens Yosi Keller

Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection.

Jiageng Mao Minzhe Niu Haoyue Bai Xiaodan Liang Hang Xu Chunjing Xu

The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection.

Zhikang Zou Xiaoqing Ye Liang Du Xianhui Cheng Xiao Tan Li Zhang Jianfeng Feng Xiangyang Xue Errui Ding

Dual Bipartite Graph Learning: A General Approach for Domain Adaptive Object Detection.

Chaoqi Chen Jiongcheng Li Zebiao Zheng Yue Huang Xinghao Ding Yizhou Yu

Time-Multiplexed Coded Aperture Imaging: Learned Coded Aperture and Pixel Exposures for Compressive Imaging Systems.

Edwin Vargas Julien N. P. Martel Gordon Wetzstein Henry Arguello

A Hybrid Frequency-Spatial Domain Model for Sparse Image Reconstruction in Scanning Transmission Electron Microscopy.

Bintao He Fa Zhang Huanshui Zhang Renmin Han

Multispectral illumination estimation using deep unrolling network.

Yuqi Li Qiang Fu Wolfgang Heidrich

Incorporating Learnable Membrane Time Constant to Enhance Learning of Spiking Neural Networks.

Wei Fang Zhaofei Yu Yanqi Chen Timothée Masquelier Tiejun Huang Yonghong Tian

Single-shot Hyperspectral-Depth Imaging with Learned Diffractive Optics.

Seung-Hwan Baek Hayato Ikoma Daniel S. Jeon Yuqi Li Wolfgang Heidrich Gordon Wetzstein Min H. Kim

Single Image Defocus Deblurring Using Kernel-Sharing Parallel Atrous Convolutions.

Hyeongseok Son Junyong Lee Sunghyun Cho Seungyong Lee

Extreme-Quality Computational Imaging via Degradation Framework.

Shiqi Chen Huajun Feng Keming Gao Zhihai Xu Yueting Chen

Self-supervised Neural Networks for Spectral Snapshot Compressive Imaging.

Ziyi Meng Zhenming Yu Kun Xu Xin Yuan

Universal and Flexible Optical Aberration Correction Using Deep-Prior Based Deconvolution.

Xiu Li Jinli Suo Weihang Zhang Xin Yuan Qionghai Dai

A Simple Framework for 3D Lensless Imaging with Programmable Masks.

Yucheng Zheng Yi Hua Aswin C. Sankaranarayanan M. Salman Asif

Objects as Cameras: Estimating High-Frequency Illumination from Shadows.

Tristan Swedish Connor Henley Ramesh Raskar

Motion Deblurring with Real Events.

Fang Xu Lei Yu Bishan Wang Wen Yang Gui-Song Xia Xu Jia Zhendong Qiao Jianzhuang Liu

Learning Privacy-preserving Optics for Human Pose Estimation.

Carlos Hinojosa Juan Carlos Niebles Henry Arguello

Event-based Video Reconstruction Using Transformer.

Wenming Weng Yueyi Zhang Zhiwei Xiong

Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection.

Ziteng Cui Guo-Jun Qi Lin Gu Shaodi You Zenghui Zhang Tatsuya Harada

COMISR: Compression-Informed Video Super-Resolution.

Yinxiao Li Pengchong Jin Feng Yang Ce Liu Ming-Hsuan Yang Peyman Milanfar

Super Resolve Dynamic Scene from Continuous Spike Streams.

Jing Zhao Jiyu Xie Ruiqin Xiong Jian Zhang Zhaofei Yu Tiejun Huang

Unsupervised Non-Rigid Image Distortion Removal via Grid Deformation.

Nianyi Li Simron Thapa Cameron Whyte Albert Reed Suren Jayasuriya Jinwei Ye

Photon-Starved Scene Inference using Single Photon Cameras.

Bhavya Goyal Mohit Gupta

HDR Video Reconstruction: A Coarse-to-fine Network and A Real-world Benchmark Dataset.

Guanying Chen Chaofeng Chen Shi Guo Zhetong Liang Kwan-Yee K. Wong Lei Zhang

SeLFVi: Self-supervised Light-Field Video Reconstruction from Stereo Video.

Prasan Shedligeri Florian Schiffers Sushobhan Ghosh Oliver Cossairt Kaushik Mitra

Distillation-guided Image Inpainting.

Maitreya Suin Kuldeep Purohit A. N. Rajagopalan

Real-time Image Enhancer via Learnable Spatial-aware 3D Lookup Tables.

Tao Wang Yong Li Jingyang Peng Yipeng Ma Xian Wang Fenglong Song Youliang Yan

Deep Reparametrization of Multi-Frame Super-Resolution and Denoising.

Goutam Bhat Martin Danelljan Fisher Yu Luc Van Gool Radu Timofte

Learning Dynamic Interpolation for Extremely Sparse Light Fields with Wide Baselines.

Mantang Guo Jing Jin Hui Liu Junhui Hou

Virtual light transport matrices for non-line-of-sight imaging.

Julio Marco Adrián Jarabo Ji Hyun Nam Xiaochun Liu Miguel Ángel Cosculluela Andreas Velten Diego Gutierrez

A Dark Flash Normal Camera.

Zhihao Xia Jason Lawrence Supreeth Achar

A Light Stage on Every Desk.

Soumyadip Sengupta Brian Curless Ira Kemelmacher-Shlizerman Steven M. Seitz

Large Scale Multi-Illuminant (LSMI) Dataset for Developing White Balance Algorithm under Mixed Illumination.

Dongyoung Kim Jinwoo Kim Seonghyeon Nam Dongwoo Lee Yeonkyung Lee Nahyup Kang Hyong-Euk Lee ByungIn Yoo Jae-Joon Han Seon Joo Kim

NeuSpike-Net: High Speed Video Reconstruction via Bio-inspired Neuromorphic Cameras.

Lin Zhu Jianing Li Xiao Wang Tiejun Huang Yonghong Tian

V-DESIRR: Very Fast Deep Embedded Single Image Reflection Removal.

B. H. Pawan Prasad Green Rosh K. S R. B. Lokesh Kaushik Mitra Sanjoy Chowdhury

Variable-Rate Deep Image Compression through Spatially-Adaptive Feature Transform.

Myungseo Song Jinyoung Choi Bohyung Han

Lucas-Kanade Reloaded: End-to-End Super-Resolution from Raw Image Bursts.

Bruno Lecouat Jean Ponce Julien Mairal

Fourier Space Losses for Efficient Perceptual Image Super-Resolution.

Dario Fuoli Luc Van Gool Radu Timofte

C2N: Practical Generative Noise Modeling for Real-World Denoising.

Geonwoon Jang Wooseok Lee Sanghyun Son Kyoung Mu Lee

Inference of Black Hole Fluid-Dynamics from Sparse Interferometric Measurements.

Aviad Levis Daeyoung Lee Joel A. Tropp Charles F. Gammie Katherine L. Bouman

What You Can Learn by Staring at a Blank Wall.

Prafull Sharma Miika Aittala Yoav Y. Schechner Antonio Torralba Gregory W. Wornell William T. Freeman Frédo Durand

Anonymizing Egocentric Videos.

Daksh Thapar Aditya Nigam Chetan Arora

Spatially-Adaptive Image Restoration using Distortion-Guided Networks.

Kuldeep Purohit Maitreya Suin A. N. Rajagopalan Vishnu Naresh Boddeti

Hybrid Neural Fusion for Full-frame Video Stabilization.

Yu-Lun Liu Wei-Sheng Lai Ming-Hsuan Yang Yung-Yu Chuang Jia-Bin Huang

Learning to Reduce Defocus Blur by Realistically Modeling Dual-Pixel Data.

Abdullah Abuolaim Mauricio Delbracio Damien Kelly Michael S. Brown Peyman Milanfar

Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB Images in the Wild.

Zhiyu Zhu Hui Liu Junhui Hou Huanqiang Zeng Qingfu Zhang

High Quality Disparity Remapping with Two-Stage Warping.

Bing Li Chia-Wen Lin Cheng Zheng Shan Liu Junsong Yuan Bernard Ghanem C.-C. Jay Kuo

Dynamic CT Reconstruction from Limited Views with Implicit Neural Representations and Parametric Motion Fields.

Albert W. Reed Hyojin Kim Rushil Anirudh K. Aditya Mohan Kyle Champley Jingu Kang Suren Jayasuriya

Hyperspectral Image Denoising with Realistic Data.

Tao Zhang Ying Fu Cheng Li

How to Train Neural Networks for Flare Removal.

Yicheng Wu Qiurui He Tianfan Xue Rahul Garg Jiawen Chen Ashok Veeraraghavan Jonathan T. Barron

Defocus Map Estimation and Deblurring from a Single Dual-Pixel Image.

Shumian Xin Neal Wadhwa Tianfan Xue Jonathan T. Barron Pratul P. Srinivasan Jiawen Chen Ioannis Gkioulekas Rahul Garg

Adversarial Attack on Deep Cross-Modal Hamming Retrieval.

Chao Li Shangqian Gao Cheng Deng Wei Liu Heng Huang

COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation.

Keyu Wen Jin Xia Yuanyuan Huang Linyang Li Jiayan Xu Jie Shao

Auto-Parsing Network for Image Captioning and Visual Question Answering.

Xu Yang Chongyang Gao Hanwang Zhang Jianfei Cai

Partial Off-policy Learning: Balance Accuracy and Diversity for Human-Oriented Image Captioning.

Jiahe Shi Yali Li Shengjin Wang

Hierarchical Graph Attention Network for Few-shot Visual-Semantic Learning.

Chengxiang Yin Kun Wu Zhengping Che Bo Jiang Zhiyuan Xu Jian Tang

LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision.

Zhijian Liu Simon Stent Jie Li John Gideon Song Han

Patch Craft: Video Denoising by Deep Modeling and Patch Matching.

Gregory Vaksman Michael Elad Peyman Milanfar

N-ImageNet: Towards Robust, Fine-Grained Object Recognition with Event Cameras.

Junho Kim Jaehyeok Bae Gangin Park Dongsu Zhang Young Min Kim

Dual Transfer Learning for Event-based End-task Prediction via Pluggable Event to Image Translation.

Lin Wang Yujeong Chae Kuk-Jin Yoon

Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models.

Zheyuan Liu Cristian Rodriguez Opazo Damien Teney Stephen Gould

Language-Guided Global Image Editing via Cross-Modal Cyclic Mechanism.

Wentao Jiang Ning Xu Jiayun Wang Chen Gao Jing Shi Zhe Lin Si Liu

Motion-Focused Contrastive Learning of Video Representations*.

Rui Li Yiheng Zhang Zhaofan Qiu Ting Yao Dong Liu Tao Mei

Viewpoint-Agnostic Change Captioning with Cycle Consistency.

Hoeseong Kim Jongseok Kim Hyungseok Lee Hyunsung Park Gunhee Kim

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery.

Or Patashnik Zongze Wu Eli Shechtman Daniel Cohen-Or Dani Lischinski

TRAR: Routing the Attention Spans in Transformer for Visual Question Answering.

Yiyi Zhou Tianhe Ren Chaoyang Zhu Xiaoshuai Sun Jianzhuang Liu Xinghao Ding Mingliang Xu Rongrong Ji

On the hidden treasure of dialog in video question answering.

Deniz Engin François Schnitzler Ngoc Q. K. Duong Yannis Avrithis

AESOP: Abstract Encoding of Stories, Objects, and Pictures.

Hareesh Ravi Kushal Kafle Scott Cohen Jonathan Brandt Mubbasir Kapadia

Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models.

Linjie Li Jie Lei Zhe Gan Jingjing Liu

Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos.

Heeseung Yun Youngjae Yu Wonsuk Yang Kangil Lee Gunhee Kim

Explainable Video Entailment with Grounded Visual Evidence.

Junwen Chen Yu Kong Golisano

Let's See Clearly: Contaminant Artifact Removal for Moving Cameras.

Xiaoyu Li Bo Zhang Jing Liao Pedro V. Sander

Dual-Camera Super-Resolution with Aligned Attention Modules.

Tengfei Wang Jiaxin Xie Wenxiu Sun Qiong Yan Qifeng Chen

IICNet: A Generic Framework for Reversible Image Conversion.

Ka Leong Cheng Yueqi Xie Qifeng Chen

Cross-Camera Convolutional Color Constancy.

Mahmoud Afifi Jonathan T. Barron Chloe LeGendre Yun-Ta Tsai Francois Bleibel

Describing and Localizing Multiple Changes with Transformers.

Yue Qiu Shintaro Yamamoto Kodai Nakashima Ryota Suzuki Kenji Iwata Hirokatsu Kataoka Yutaka Satoh

IntraTomo: Self-supervised Learning-based Tomography via Sinogram Synthesis and Prediction.

Guangming Zang Ramzi Idoughi Rui Li Peter Wonka Wolfgang Heidrich

T-Net: Effective Permutation-Equivariant Network for Two-View Correspondence Learning.

Zhen Zhong Guobao Xiao Linxin Zheng Yan Lu Jiayi Ma

Spatial-Temporal Consistency Network for Low-Latency Trajectory Forecasting.

Shijie Li Yanying Zhou Jinhui Yi Juergen Gall

Localize to Binauralize: Audio Spatialization from Visual Sound Source Localization.

Kranthi Kumar Rachavarapu Aakanksha Vignesh Sundaresha A. N. Rajagopalan

Mixed SIGNals: Sign Language Production via a Mixture of Motion Primitives.

Ben Saunders Necati Cihan Camgöz Richard Bowden

Weakly Supervised Relative Spatial Reasoning for Visual Question Answering.

Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral

Unified Questioner Transformer for Descriptive Question Generation in Goal-Oriented Visual Dialogue.

Shoya Matsumori Kosuke Shingyouchi Yuki Abe Yosuke Fukuchi Komei Sugiura Michita Imai

Factorizing Perception and Policy for Interactive Instruction Following.

Kunal Pratap Singh Suvaansh Bhambri Byeonghwi Kim Roozbeh Mottaghi Jonghyun Choi

Interpretable Visual Reasoning via Induced Symbolic Space.

Zhonghao Wang Kai Wang Mo Yu Jinjun Xiong Wen-Mei Hwu Mark Hasegawa-Johnson Humphrey Shi

Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference.

Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang

SAT: 2D Semantics Assisted Training for 3D Visual Grounding.

Zhengyuan Yang Songyang Zhang Liwei Wang Jiebo Luo

Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions.

Shuang Li Yilun Du Antonio Torralba Josef Sivic Bryan C. Russell

Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query.

Guanyu Cai Jun Zhang Xinyang Jiang Yifei Gong Lianghua He Fufu Yu Pai Peng Xiaowei Guo Feiyue Huang Xing Sun

Learning to Generate Scene Graph from Natural Language Supervision.

Yiwu Zhong Jing Shi Jianwei Yang Chenliang Xu Yin Li

Wasserstein Coupled Graph Learning for Cross-Modal Retrieval.

Yun Wang Tong Zhang Xueya Zhang Zhen Cui Yuge Huang Pengcheng Shen Shaoxin Li Jian Yang

Detector-Free Weakly Supervised Grounding by Separation.

Assaf Arbelle Sivan Doveh Amit Alfassy Joseph Shtok Guy Lev Eli Schwartz Hilde Kuehne Hila Barak Levi Prasanna Sattigeri Rameswar Panda Chun-Fu Chen Alex M. Bronstein Kate Saenko Shimon Ullman Raja Giryes Rogério Feris Leonid Karlinsky

InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring.

Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui

MDETR - Modulated Detection for End-to-End Multi-Modal Understanding.

Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion

TransVG: End-to-End Visual Grounding with Transformers.

Jiajun Deng Zhengyuan Yang Tianlang Chen Wengang Zhou Houqiang Li

Unsupervised Deep Video Denoising.

Dev Yashpal Sheth Sreyas Mohan Joshua L. Vincent Ramon Manzorro Peter A. Crozier Mitesh M. Khapra Eero P. Simoncelli Carlos Fernandez-Granda

Deep 3D Mask Volume for View Synthesis of Dynamic Scenes.

Kai-En Lin Lei Xiao Feng Liu Guowei Yang Ravi Ramamoorthi

Video Instance Segmentation with a Propose-Reduce Paradigm.

Huaijia Lin Ruizheng Wu Shu Liu Jiangbo Lu Jiaya Jia

Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval.

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

Multiple Pairwise Ranking Networks for Personalized Video Summarization.

Yassir Saquil Da Chen Yuan He Chuan Li Yong-Liang Yang

Video Question Answering Using Language-Guided Deep Compressed-Domain Video Feature.

Nayoung Kim Seong Jong Ha Je-Won Kang

HAIR: Hierarchical Visual-Semantic Relational Reasoning for Video Question Answering.

Fei Liu Jing Liu Weining Wang Hanqing Lu

Just Ask: Learning to Answer Questions from Millions of Narrated Videos.

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments.

Difei Gao Ruiping Wang Ziyi Bai Xilin Chen

VLGrammar: Grounded Grammar Induction of Vision and Language.

Yining Hong Qing Li Song-Chun Zhu Siyuan Huang

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation.

Yuankai Qi Zizheng Pan Yicong Hong Ming-Hsuan Yang Anton van den Hengel Qi Wu

Vision-Language Navigation with Random Environmental Mixup.

Chong Liu Fengda Zhu Xiaojun Chang Xiaodan Liang Zongyuan Ge Yi-Dong Shen

Airbert: In-domain Pretraining for Vision-and-Language Navigation.

Pierre-Louis Guhur Makarand Tapaswi Shizhe Chen Ivan Laptev Cordelia Schmid

LapsCore: Language-guided Person Search via Color Reasoning.

Yushuang Wu Zizheng Yan Xiaoguang Han Guanbin Li Changqing Zou Shuguang Cui

Linguistically Routing Capsule Network for Out-of-distribution Visual Question Answering.

Qingxing Cao Wentao Wan Keze Wang Xiaodan Liang Liang Lin

Contrast and Classify: Training Robust VQA Models.

Yash Kant Abhinav Moudgil Dhruv Batra Devi Parikh Harsh Agrawal

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation.

Yi Zhu Yue Weng Fengda Zhu Xiaodan Liang Qixiang Ye Yutong Lu Jianbin Jiao

Greedy Gradient Ensemble for Robust Visual Question Answering.

Xinzhe Han Shuhui Wang Chi Su Qingming Huang Qi Tian

Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering.

Corentin Dancette Rémi Cadène Damien Teney Matthieu Cord

Learning Motion-Appearance Co-Attention for Zero-Shot Video Object Segmentation.

Shu Yang Lu Zhang Jinqing Qi Huchuan Lu Shuo Wang Xiaoxing Zhang

Dynamic Context-Sensitive Filtering Network for Video Salient Object Detection.

Miao Zhang Jie Liu Yifei Wang Yongri Piao Shunyu Yao Wei Ji Jingjing Li Huchuan Lu Zhongxuan Luo

Motion Guided Region Message Passing for Video Captioning.

Shaoxiang Chen Yu-Gang Jiang

STVGBert: A Visual-linguistic Transformer based Framework for Spatio-temporal Video Grounding.

Rui Su Qian Yu Dong Xu

Fast Video Moment Retrieval.

Junyu Gao Changsheng Xu

MGSampler: An Explainable Sampling Strategy for Video Action Recognition.

Yuan Zhi Zhan Tong Limin Wang Gangshan Wu

Vi2CLR: Video and Image for Visual Contrastive Learning of Representation.

Ali Diba Vivek Sharma Reza Safdari Dariush Lotfi M. Saquib Sarfraz Rainer Stiefelhagen Luc Van Gool

Dense Interaction Learning for Video-based Person Re-identification.

Tianyu He Xin Jin Xu Shen Jianqiang Huang Zhibo Chen Xian-Sheng Hua

Learning Temporal Dynamics from Cycles in Narrated Video.

Dave Epstein Jiajun Wu Cordelia Schmid Chen Sun

Zero-shot Natural Language Video Localization.

Jinwoo Nam Daechul Ahn Dongyeop Kang Seong Jong Ha Jonghyun Choi

Graph Constrained Data Representation Learning for Human Motion Segmentation.

Mariella Dimiccoli Lluís Garrido Guillem Rodríguez Corominas Herwig Wendt

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations.

Mohammadreza Zolfaghari Yi Zhu Peter V. Gehler Thomas Brox

UniT: Multimodal Multitask Learning with a Unified Transformer.

Ronghang Hu Amanpreet Singh

Compressing Visual-linguistic Model via Knowledge Distillation.

Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu

Unshuffling Data for Improved Generalization in Visual Question Answering.

Damien Teney Ehsan Abbasnejad Anton van den Hengel

In Defense of Scene Graphs for Image Captioning.

Kien Nguyen Subarna Tripathi Bang Du Tanaya Guha Truong Q. Nguyen

Synthesis of Compositional Animations from Textual Descriptions.

Anindita Ghosh Noshaba Cheema Cennet Oguz Christian Theobalt Philipp Slusallek

YouRefIt: Embodied Reference Understanding with Language and Gesture.

Yixin Chen Qing Li Deqian Kong Yik Lun Kei Song-Chun Zhu Tao Gao Yixin Zhu Siyuan Huang

Who's Waldo? Linking People Across Text and Images.

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Panoptic Narrative Grounding.

Cristina González Nicolás Ayobi Isabela Hernández José Hernández Jordi Pont-Tuset Pablo Arbeláez

LFI-CAM: Learning Feature Importance for Better Visual Explanation.

Kwang Hee Lee Chaewon Park Junghyun Oh Nojun Kwak

Finding Representative Interpretations on Convolutional Neural Networks.

Peter Cho-Ho Lam Lingyang Chu Maxim Torgonskiy Jian Pei Yong Zhang Lanjun Wang

Towards Better Explanations of Class Activation Mapping.

Hyungsik Jung Youngrock Oh

Towards Learning Spatially Discriminative Feature Representations.

Chaofei Wang Jiayu Xiao Yizeng Han Qisen Yang Shiji Song Gao Huang

Shape-Biased Domain Generalization via Shock Graph Embeddings.

Maruthi Narayanan Vickram Rajendran Benjamin B. Kimia

Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection.

Shi-Xue Zhang Xiaobin Zhu Chun Yang Hongfa Wang Xu-Cheng Yin

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition.

Wenyuan Xue Baosheng Yu Wen Wang Dacheng Tao Qingyong Li

Learning to Discover Reflection Symmetry via Polar Matching Convolution.

Ahyun Seo Woohyeon Shim Minsu Cho

Embed Me If You Can: A Geometric Perceptron.

Pavlo Melnyk Michael Felsberg Mårten Wadenbäck

Hypergraph Neural Networks for Hypergraph Matching.

Xiaowei Liao Yong Xu Haibin Ling

Broaden Your Views for Self-Supervised Video Learning.

Adrià Recasens Pauline Luc Jean-Baptiste Alayrac Luyu Wang Florian Strub Corentin Tallec Mateusz Malinowski Viorica Patraaucean Florent Altché Michal Valko Jean-Bastien Grill Aäron van den Oord Andrew Zisserman

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks.

Maxime Kayser Oana-Maria Camburu Leonard Salewski Cornelius Emde Virginie Do Zeynep Akata Thomas Lukasiewicz

Explanations for Occluded Images.

Hana Chockler Daniel Kroening Youcheng Sun

Explaining Local, Global, And Higher-Order Interactions In Deep Learning.

Samuel Lerman Charles Venuto Henry A. Kautz Chenliang Xu

Better Aggregation in Test-Time Augmentation.

Divya Shanmugam Davis W. Blalock Guha Balakrishnan John V. Guttag

Visual Scene Graphs for Audio Source Separation.

Moitreya Chatterjee Jonathan Le Roux Narendra Ahuja Anoop Cherian

How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild.

Okan Köpüklü Maja Taseska Gerhard Rigoll

Audio-Visual Floorplan Reconstruction.

Senthil Purushwalkam Sebastia Vicenc Amengual Gari Vamsi Krishna Ithapu Carl Schissler Philip Robinson Abhinav Gupta Kristen Grauman

MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement.

Alexander Richard Michael Zollhöfer Yandong Wen Fernando De la Torre Yaser Sheikh

IDARTS: Interactive Differentiable Architecture Search.

Song Xue Runqi Wang Baochang Zhang Tian Wang Guodong Guo David S. Doermann

CODEs: Chamfer Out-of-Distribution Examples against Overconfidence Issue.

Keke Tang Dingruibo Miao Weilong Peng Jianpeng Wu Yawen Shi Zhaoquan Gu Zhihong Tian Wenping Wang

Transforms based Tensor Robust PCA: Corrupted Low-Rank Tensors Recovery via Convex Optimization.

Canyi Lu

Predicting with Confidence on Unseen Distributions.

Devin Guillory Vaishaal Shankar Sayna Ebrahimi Trevor Darrell Ludwig Schmidt

Striking a Balance between Stability and Plasticity for Class-Incremental Learning.

Guile Wu Shaogang Gong Pan Li Queen

Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling?

Yue Song Nicu Sebe Wei Wang

The Right to Talk: An Audio-Visual Transformer Approach.

Thanh-Dat Truong Chi Nhan Duong The De Vu Hoang Anh Pham Bhiksha Raj Ngan Le Khoa Luu

Interpreting Attributions and Interactions of Adversarial Attacks.

Xin Wang Shuyun Lin Hao Zhang Yufei Zhu Quanshi Zhang

Handwriting Transformers.

Ankan Kumar Bhunia Salman H. Khan Hisham Cholakkal Rao Muhammad Anwer Fahad Shahbaz Khan Mubarak Shah

De-rendering Stylized Texts.

Wataru Shimoda Daichi Haraguchi Seiichi Uchida Kota Yamaguchi

From Culture to Clothing: Discovering the World Events Behind A Century of Fashion Images.

Wei-Lin Hsiao Kristen Grauman

Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations.

Pau Rodríguez Massimo Caccia Alexandre Lacoste Lee Zamparo Issam H. Laradji Laurent Charlin David Vázquez

SCOUTER: Slot Attention-based Classifier for Explainable Image Recognition.

Liangzhi Li Bowen Wang Manisha Verma Yuta Nakashima Ryo Kawasaki Hajime Nagahara

Learning Canonical 3D Object Representation for Fine-Grained Recognition.

Sunghun Joung Seungryong Kim Minsu Kim Ig-Jae Kim Kwanghoon Sohn

Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-identification.

Yongming Rao Guangyi Chen Jiwen Lu Jie Zhou

Effectively Leveraging Attributes for Visual Similarity.

Samarth Mishra Zhongping Zhang Yuan Shen Ranjitha Kumar Venkatesh Saligrama Bryan A. Plummer

LayoutTransformer: Layout Generation and Completion with Self-attention.

Kamal Gupta Justin Lazarow Alessandro Achille Larry Davis Vijay Mahadevan Abhinav Shrivastava

DocFormer: End-to-End Transformer for Document Understanding.

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation.

Ayan Kumar Bhunia Aneeshan Sain Pinaki Nath Chowdhury Yi-Zhe Song

Detecting Persuasive Atypicality by Modeling Contextual Compatibility.

Meiqi Guo Rebecca Hwa Adriana Kovashka

Spatial and Semantic Consistency Regularizations for Pedestrian Attribute Recognition.

Jian Jia Xiaotang Chen Kaiqi Huang

SketchLattice: Latticed Representation for Sketch Manipulation.

Yonggang Qi Guoyao Su Pinaki Nath Chowdhury Mingkang Li Yi-Zhe Song

Parsing Table Structures in the Wild.

Rujiao Long Wen Wang Nan Xue Feiyu Gao Zhibo Yang Yongpan Wang Gui-Song Xia

Graph-based Asynchronous Event Processing for Rapid Object Recognition.

Yijin Li Han Zhou Bangbang Yang Ye Zhang Zhaopeng Cui Hujun Bao Guofeng Zhang

End-to-End Trainable Trident Person Search Network Using Adaptive Gradient Propagation.

Byeong-Ju Han Kuhyeun Ko Jae-Young Sim

Walk in the Cloud: Learning Curves for Point Clouds Shape Analysis.

Tiange Xiang Chaoyi Zhang Yang Song Jianhui Yu Weidong Cai

Generating Attribution Maps with Disentangled Masked Backpropagation.

Adria Ruiz Antonio Agudo Francesc Moreno-Noguer

Interpretable Image Recognition by Constructing Transparent Embedding Space.

Jiaqi Wang Huafeng Liu Xinyue Wang Liping Jing

Attentional Pyramid Pooling of Salient Visual Residuals for Place Recognition.

Guohao Peng Jun Zhang Heshan Li Danwei Wang

Grafit: Learning fine-grained image representations with coarse labels.

Hugo Touvron Alexandre Sablayrolles Matthijs Douze Matthieu Cord Hervé Jégou

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction.

Shihua Huang Zhichao Lu Ran Cheng Cheng He

Multimodal Knowledge Expansion.

Zihui Xue Sucheng Ren Zhengqi Gao Hang Zhao

SS-IL: Separated Softmax for Incremental Learning.

Hongjoon Ahn Jihwan Kwak Subin Lim Hyeonsu Bang Hyojun Kim Taesup Moon

Learning to Diversify for Single Domain Generalization.

Zijian Wang Yadan Luo Ruihong Qiu Zi Huang Mahsa Baktashmotlagh

MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks.

Alexandre Ramé Rémy Sun Matthieu Cord

OpenGAN: Open-Set Recognition via Open Data Generation.

Shu Kong Deva Ramanan

Neural Video Portrait Relighting in Real-time via Consistency Modeling.

Longwen Zhang Qixuan Zhang Minye Wu Jingyi Yu Lan Xu

Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs.

Md. Amirul Islam Matthew Kowal Sen Jia Konstantinos G. Derpanis Neil D. B. Bruce

FcaNet: Frequency Channel Attention Networks.

Zequn Qin Pengyi Zhang Fei Wu Xi Li

TrivialAugment: Tuning-free Yet State-of-the-Art Data Augmentation.

Samuel G. Müller Frank Hutter

Recursively Conditional Gaussian for Ordinal Unsupervised Domain Adaptation.

Xiaofeng Liu Site Li Yubin Ge Pengyi Ye Jane You Jun Lu

Contrastive Multimodal Fusion with TupleInfoNCE.

Yunze Liu Qingnan Fan Shanghang Zhang Hao Dong Thomas A. Funkhouser Li Yi

Statistically Consistent Saliency Estimation.

Shunyan Luo Emre Barut Fang Jin

Influence-Balanced Loss for Imbalanced Visual Classification.

Seulki Park Jongin Lim Younghan Jeon Jin Young Choi

Learning Fast Sample Re-weighting Without Reward Data.

Zizhao Zhang Tomas Pfister

Parametric Contrastive Learning.

Jiequan Cui Zhisheng Zhong Shu Liu Bei Yu Jiaya Jia

Ground-truth or DAER: Selective Re-query of Secondary Information.

Stephan J. Lemmer Jason J. Corso

Explaining in Style: Training a GAN to explain a classifier in StyleSpace.

Oran Lang Yossi Gandelsman Michal Yarom Yoav Wald Gal Elidan Avinatan Hassidim William T. Freeman Phillip Isola Amir Globerson Michal Irani Inbar Mosseri

Exploiting Explanations for Model Inversion Attacks.

Xuejun Zhao Wencan Zhang Xiaokui Xiao Brian Y. Lim

Architecture Disentanglement for Deep Neural Networks.

Jie Hu Liujuan Cao Tong Tong Qixiang Ye Shengchuan Zhang Ke Li Feiyue Huang Ling Shao Rongrong Ji

Adversarial Attacks are Reversible with Natural Supervision.

Chengzhi Mao Mia Chiquier Hao Wang Junfeng Yang Carl Vondrick

Shallow Bayesian Meta Learning for Real-World Few-Shot Recognition.

Xueting Zhang Debin Meng Henry Gouk Timothy M. Hospedales

Semantic Diversity Learning for Zero-Shot Multi-label Classification.

Avi Ben-Cohen Nadav Zamir Emanuel Ben Baruch Itamar Friedman Lihi Zelnik-Manor

Self Supervision to Distillation for Long-Tailed Visual Recognition.

Tianhao Li Limin Wang Gangshan Wu

Stochastic Partial Swap: Enhanced Model Generalization and Interpretability for Fine-grained Recognition.

Shaoli Huang Xinchao Wang Dacheng Tao

Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data.

Xuhui Jia Kai Han Yukun Zhu Bradley Green

Visual Transformers: Where Do Transformers Really Belong in Vision Models?

Bichen Wu Chenfeng Xu Xiaoliang Dai Alvin Wan Peizhao Zhang Zhicheng Yan Masayoshi Tomizuka Joseph Gonzalez Kurt Keutzer Peter Vajda

Visformer: The Vision-friendly Transformer.

Zhengsu Chen Lingxi Xie Jianwei Niu Xuefeng Liu Longhui Wei Qi Tian

Incorporating Convolution Designs into Visual Transformers.

Kun Yuan Shaopeng Guo Ziwei Liu Aojun Zhou Fengwei Yu Wei Wu

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions.

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet.

Li Yuan Yunpeng Chen Tao Wang Weihao Yu Yujun Shi Zihang Jiang Francis E. H. Tay Jiashi Feng Shuicheng Yan

Point Cloud Augmentation with Weighted Local Transformations.

Sihyeon Kim Sanghyeok Lee Dasol Hwang Jaewon Lee Seong Jae Hwang Hyunwoo J. Kim

Continual Learning on Noisy Data Streams via Self-Purified Replay.

Chris Dongjoo Kim Jinseo Jeong Sangwoo Moon Gunhee Kim

Aggregation with Feature Detection.

Shuyang Sun Xiaoyu Yue Xiaojuan Qi Wanli Ouyang Victor Prisacariu Philip H. S. Torr

Learning Meta-class Memory for Few-Shot Semantic Segmentation.

Zhonghua Wu Xiangxi Shi Guosheng Lin Jianfei Cai

Learning to Resize Images for Computer Vision Tasks.

Hossein Talebi Peyman Milanfar

Exploration and Estimation for Model Compression.

Yanfu Zhang Shangqian Gao Heng Huang

Group-wise Inhibition based Feature Regularization for Robust Classification.

Haozhe Liu Haoqian Wu Weicheng Xie Feng Liu Linlin Shen

MicroNet: Improving Image Recognition with Extremely Low FLOPs.

Yunsheng Li Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Lu Yuan Zicheng Liu Lei Zhang Nuno Vasconcelos

Amplitude-Phase Recombination: Rethinking Robustness of Convolutional Neural Networks in Frequency Domain.

Guangyao Chen Peixi Peng Li Ma Jia Li Lin Du Yonghong Tian

An Asynchronous Kalman Filter for Hybrid Event Cameras.

Ziwei Wang Yonhon Ng Cedric Scheerlinck Robert E. Mahony

Virtual Multi-Modality Self-Supervised Foreground Matting for Human-Object Interaction.

Bo Xu Han Huang Cheng Lu Ziwen Li Yandong Guo

Towers of Babel: Combining Images, Language, and 3D Geometry for Learning Multimodal Vision.

Xiaoshi Wu Hadar Averbuch-Elor Jin Sun Noah Snavely

MosaicOS: A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection.

Cheng Zhang Tai-Yu Pan Yandong Li Hexiang Hu Dong Xuan Soravit Changpinyo Boqing Gong Wei-Lun Chao

Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views.

Xin Wei Yifei Gong Fudong Wang Xing Sun Jian Sun

Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers.

Hila Chefer Shir Gur Lior Wolf

Vision Transformer with Progressive Sampling.

Xiaoyu Yue Shuyang Sun Zhanghui Kuang Meng Wei Philip H. S. Torr Wayne Zhang Dahua Lin

Scalable Vision Transformers with Hierarchical Pooling.

Zizheng Pan Bohan Zhuang Jing Liu Haoyu He Jianfei Cai

Conformer: Local Features Coupling Global Representations for Visual Recognition.

Zhiliang Peng Wei Huang Shanzhi Gu Lingxi Xie Yaowei Wang Jianbin Jiao Qixiang Ye

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification.

Chun-Fu (Richard) Chen Quanfu Fan Rameswar Panda

Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition.

Ming Lin Pichao Wang Zhenhong Sun Hesen Chen Xiuyu Sun Qi Qian Hao Li Rong Jin

AutoSpace: Neural Architecture Search with Less Human Interference.

Daquan Zhou Xiaojie Jin Xiaochen Lian Linjie Yang Yujing Xue Qibin Hou Jiashi Feng

Differentiable Dynamic Wirings for Neural Networks.

Kun Yuan Quanquan Li Shaopeng Guo Dapeng Chen Aojun Zhou Fengwei Yu Ziwei Liu

BN-NAS: Neural Architecture Search with Batch Normalization.

Boyu Chen Peixia Li Baopu Li Chen Lin Chuming Li Ming Sun Junjie Yan Wanli Ouyang

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video.

Minsu Kim Joanna Hong Se Jin Park Yong Man Ro

Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis.

Nikhil Singh Jeff Mentch Jerry Ng Matthew Beveridge Iddo Drori

Move2Hear: Active Audio-Visual Source Separation.

Sagnik Majumder Ziad Al-Halah Kristen Grauman

MAAS: Multi-modal Assignation for Active Speaker Detection.

Juan León Alcázar Fabian Caba Heilbron Ali K. Thabet Bernard Ghanem

When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes.

Philipp Bomatter Mengmi Zhang Dimitar Karev Spandan Madan Claire Tseng Gabriel Kreiman

Neural Photofit: Gaze-based Mental Image Reconstruction.

Florian Strohm Ekta Sood Sven Mayer Philipp Müller Mihai Bâce Andreas Bulling

Distilling Virtual Examples for Long-tailed Recognition.

Yin-Yin He Jianxin Wu Xiu-Shen Wei

Syncretic Modality Collaborative Learning for Visible Infrared Person Re-Identification.

Ziyu Wei Xi Yang Nannan Wang Xinbo Gao

Attack-Guided Perceptual Data Generation for Real-world Re-Identification.

Yukun Huang Xueyang Fu Zheng-Jun Zha

Heterogeneous Relational Complement for Vehicle Re-identification.

Jiajian Zhao Yifan Zhao Jia Li Ke Yan Yonghong Tian

Self-supervised Geometric Features Discovery via Interpretable Attention for Vehicle Re-Identification and Beyond.

Ming Li Xinming Huang Ziming Zhang

Residual Attention: A Simple but Effective Method for Multi-Label Recognition.

Ke Zhu Jianxin Wu

Dance with Self-Attention: A New Look of Conditional Random Fields on Anomaly Detection in Videos.

Didik Purwanto Yie-Tarng Chen Wen-Hsien Fang

Transformer-based Dual Relation Graph for Multi-label Image Recognition.

Jiawei Zhao Ke Yan Yifan Zhao Xiaowei Guo Feiyue Huang Jia Li

Spatio-Temporal Representation Factorization for Video-based Person Re-Identification.

Abhishek Aich Meng Zheng Srikrishna Karanam Terrence Chen Amit K. Roy-Chowdhury Ziyan Wu

Z-Score Normalization, Hubness, and Few-Shot Learning.

Nanyi Fei Yizhao Gao Zhiwu Lu Tao Xiang

Online Refinement of Low-level Feature Based Activation Map for Weakly Supervised Object Localization.

Jinheng Xie Cheng Luo Xiangping Zhu Ziqi Jin Weizeng Lu Linlin Shen

FREE: Feature Refinement for Generalized Zero-Shot Learning.

Shiming Chen Wenjie Wang Beihao Xia Qinmu Peng Xinge You Feng Zheng Ling Shao

ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot.

Jiarui Cai Yizhou Wang Jenq-Neng Hwang

Conditional Variational Capsule Network for Open Set Recognition.

Yunrui Guo Guglielmo Camporese Wenjing Yang Alessandro Sperduti Lamberto Ballan

Procrustean Training for Imbalanced Deep Learning.

Han-Jia Ye De-Chuan Zhan Wei-Lun Chao

Asymmetric Loss For Multi-Label Classification.

Tal Ridnik Emanuel Ben Baruch Nadav Zamir Asaf Noy Itamar Friedman Matan Protter Lihi Zelnik-Manor

Learning with Noisy Labels via Sparse Regularization.

Xiong Zhou Xianming Liu Chenyang Wang Deming Zhai Junjun Jiang Xiangyang Ji

NGC: A Unified Framework for Learning with Open-World Noisy Data.

Zhi-Fan Wu Tong Wei Jianwen Jiang Chaojie Mao Mingqian Tang Yu-Feng Li

CrossNorm and SelfNorm for Generalization under Distribution Shifts.

Zhiqiang Tang Yunhe Gao Yi Zhu Zhi Zhang Mu Li Dimitris N. Metaxas

DTMNet: A Discrete Tchebichef Moments-based Deep Neural Network for Multi-focus Image Fusion.

Bin Xiao Haifeng Wu Xiuli Bi

Going deeper with Image Transformers.

Hugo Touvron Matthieu Cord Alexandre Sablayrolles Gabriel Synnaeve Hervé Jégou

CvT: Introducing Convolutions to Vision Transformers.

Haiping Wu Bin Xiao Noel Codella Mengchen Liu Xiyang Dai Lu Yuan Lei Zhang

GLiT: Neural Architecture Search for Global and Local Image Transformer.

Boyu Chen Peixia Li Chuming Li Baopu Li Lei Bai Chen Lin Ming Sun Junjie Yan Wanli Ouyang

MVTN: Multi-View Transformation Network for 3D Shape Recognition.

Abdullah Hamdi Silvio Giancola Bernard Ghanem