Jiannan Wu

Jiannan Wu (吴剑南)

I am a fourth-year (2020-now) Ph.D. student in Department of Computer Science, The University of Hong Kong, advised by Prof. Ping Luo and Prof. Wenping Wang. Before that, I obtained my bachelor and master degree from Electrical Engineering Department, Xi'an Jiaotong University.

My research interest lies in computer vision and deep learning. Previously, I mainly work on instance-level understanding in images and videos, including object segmentation and object tracking. Currently, my research focuses on multimodal large language models, generalist foundation models.

Please feel free to drop me an email if you are intested in my research or seek for possible collaborations.

Email / Google Scholar / Github

Research

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
Jiannan Wu*, Muyan Zhong*, Sen Xing*, Zeqiang Lai*, Zhaoyang Liu*, Zhe Chen*, Wenhai Wang*, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
arxiv preprint, June, 2024
Paper / Code / Project Page

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
European Conference on Computer Vision (ECCV), 2024
Paper / Code / Project Page

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, (Oral)
Paper / Code

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
Wenhai Wang*, Zhe Chen*, Xiaokang Chen*, Jiannan Wu*, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
Advances in Neural Information Processing Systems (NeurIPS), 2023
Paper / Code

A Simple Baseline for Open-World Tracking via Self-training
Bingyang Wang, Tanlin Li, Jiannan Wu, Yi Jiang, Huchuan Lu, You He
ACM International Conference on Multimedia (ACMMM), 2023
Paper / Code

UniRef: Segment Every Reference Object in Spatial and Temporal Spaces
Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
International Conference on Computer Vision (ICCV), 2023
Paper1 / Paper2 / Code

Exploring Transformers for Open-world Instance Segmentation
Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
International Conference on Computer Vision (ICCV), 2023
Paper

Universal Instance Perception as Object Discovery and Retrieval
Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan, Huchuan Lu
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023
Paper / Code

Language as Queries for Referring Video Object Segmentation
Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
Paper / Code

Watch Only Once: An End-to-End Video Action Detection Framework
Shoufa Chen, Peize Sun, Enze Xie, Chongjian Ge, Jiannan Wu, Lan Ma, Jiajun Shen, Ping Luo
International Conference on Computer Vision (ICCV), 2021
Paper / Code

Honors

Hong Kong PhD Fellowship, 2020 - 2024
First-class Academic Scholarship, 2018, 2019
First-class Recommended Postgraduate Scholarship, 2017
UHV Scholarship (top1%), 2016
National Scholarship, 2014, 2015

Academic Service

Conference Review:
Conference on Computer Vision and Pattern Recognition (CVPR)
International Conference on Computer Vision (ICCV)
European Conference on Computer Vision (ECCV)
Journal Review:
IEEE Transactions on Pattern Analysis and Machine Intelligence
IET Computer Vision

Website template from Jon Barron