2 research outputs found
멀티모달 퓨전 모델을 활용한 음영 교통정보 추정
학위논문(박사) -- 서울대학교대학원 : 공과대학 건설환경공학부, 2024. 2. 김동규.Accurate and comprehensive traffic information is essential for effective traffic management and decision-making in transportation systems. However, there is a segment of missing data where data collection is impossible due to the non- installation of sensors, malfunction of sensors, or communication errors. In recent years, the availability of multimodal data has opened up opportunities for generating more precise and comprehensive missing traffic information by fusing multiple data sources. Understanding multimodal data's heterogeneous yet interconnected nature is crucial to effectively leveraging this multimodal data. To address the complexities of fusing multimodal data and improve estimation performance, this study applies a multimodal fusion model in highway and urban networks that combines multi-source data (i.e., VDS, CCTV, and DSRC), including 1) spatially correlated traffic information of the neighboring upstream and downstream of the same timestamp, 2) temporally and semantically correlated different traffic attribute information from the same sensor, 3) spatially and semantically correlated multi-sensor data, and 4) external factors (i.e., date information). The main objective of this study is to employ complementary information considering their interrelationships through the attention mechanism and enhance the estimation performance of segment-level or lane-level missing traffic information (i.e., traffic speed and volume). The results demonstrate that the proposed attention-based multimodal fusion model outperforms baseline models, such as the practical arithmetic mean, the single-modality, and the multimodal fusion models according to input modalities. Consequently, this study demonstrates the necessity of data fusion, showcasing its excellent performance, and identifies conditions where the multimodal model is crucial. Specifically, the proposed model performs better in high temporal resolution and lanes with turning movements and varying traffic patterns. Lastly, the attention-based multimodal fusion model is applied to enhance the performance and interpretability, resulting in improved model performance and quantification of the interactions between modalities. This finding signifies that the model effectively incorporates information from diverse attributes. This study presents three main contributions: multimodal fusion, consideration of interactions between modalities, and quantification of the significance of modalities. This study showcases the potential of the proposed model in accurately estimating missing traffic information and provides recommendations for future infrastructure sensor management. Keyword: Missing Traffic Information Estimation; Multimodal Fusion Model; Attention Mechanism; Vehicle Detection System Data, Dedicated Short-Range Communication Data; Closed-circuit Television Data Student Number: 2021-33477정확하고 포괄적인 교통 정보는 교통 관리와 교통 시스템에서의 의사 결정에 필수적이다. 그러나 센서 미설치, 센서 고장, 통신 오류로 인해 데이터 수집이 불가능한 교통정보 음영(Missing) 구간이 존재한다. 최근 다양한 유형의 데이터 사용 가능성이 증가함에 따라 여러 데이터 소스를 통합하여 더욱 정확하고 포괄적인 음영 교통 정보를 생성하는 연구들이 수행되고 있다. 여러 모달리티(Modality)로 구성된 멀티모달(Multimodal) 데이터의 이질적이면서도 상호 연결된 특성을 이해하는 것은 다종 데이터를 효과적으로 융합하고 학습하는 데 중요하다. 따라서, 본 연구는 고속도로 및 도시 네트워크에 VDS, CCTV 및 DSRC 데이터로부터 수집된 다종 속성 정보를 결합하는 멀티모달 퓨전 모델을 적용하여 멀티모달 데이터의 복잡한 특성을 학습하고, 이를 통해 음영 교통정보 추정 성능을 개선합니다. 본 연구에서 제안한 모델은 1) 동일한 시간 집계 간격의 인접한 센서로부터 수집된 교통 정보 (예: 상하류 CCTV 카메라로부터 수집된 교통량), 2) 동일 센서에서 수집된 다종 교통 속성 정보 (예: CCTV 카메라로부터 수집된 속도 및 점유율), 3) 공간 및 의미적으로 상관 관계가 있는 다종 센서 정보 (예: DSRC 데이터로부터 수집된 통행시간과 속도), 그리고 4) 주중인지 주말인지를 나타내는 날짜 정보와 같은 외적 요
소를 다종 모달리티로 포함합니다. 연구의 주요 목표는 멀티모달 데이터 를 상호보완적으로 활용여 세그먼트 수준 또는 차로 단위의 음영 교통 정보(예: 구간 통행 속도 및 교통량)의 추정 성능을 향상시키는 것입니다. 그 결과, 어텐션 기반의 멀티모달 퓨전 모델은 입력 모달리티에 따른 기존의 산술평균 모델이나 단일 정보만을 고려하는 싱글 모달리티 모델들보다 우수한 성능을 보여줍니다. 이는 본 연구에서 제안한 멀티모달 퓨전 모델이 다양한 속성 정보를 효과적으로 통합한다는 것을 의미한다. 더 나아가, 본 연구는 멀티모달 데이터 융합의 필요성을 입증하고, 멀티모달 퓨전 모델이 기존 모델 대비 뛰어난 성능을 나타내는 중요 상황들을 도출한다. 특히, 본 연구에서 제안하는 멀티모달 퓨전 모델은 높은 시간 해상도와 불규칙한 통행 패턴을 가진 회전 차로에서 더 나은 교통정보 추정 성능을 보인다. 이를 고도화한 어텐션 기반의 멀티모달 퓨전 모델은 성능뿐만 아니라 모달리티 간 상호작용의 정량화를 통해 모델의 해석 가능성을 향상시킨다. 따라서, 본 연구는 멀티모달 데이터의 융합, 모달리티 간 상호작용 반영, 그리고 모달리티의 상호작용 정량화를 세 가지 주요 함의점으로 제시한다. 향후, 새로운 교통정보를 모달리티로 활용하여 음영 교통 정보를 정확하게 추정할 수 있는 잠재력을 보여주며, 본 연구의 결과를 통해 인프라 센서 설치 및 관리에 대한 권장 사항을 제공할 수 있다.Chapter 1. Introduction vii
1.1. Background 1
1.2. Research Purpose 6
Chapter 2. Literature Review . 8
2.1. Data Fusion Methods 8
2.2. Multimodal Fusion Model 10
2.2.1. Attention-based Multimodal Fusion Model 14
Chapter 3. Methodology 16
3.1. Single-modality Model 16
3.2. Multimodal Fusion Model 17
3.2.1. Joint Representation 17
3.2.2. Feature-level Fusion 18
3.2.2.1. Multilayer Perceptron (MLP) . 20
3.2.2.2. Gated Recurrent Unit (GRU) . 21
3.3. Attention-based Multimodal Fusion Model 22
3.3.1. Attention Mechanism 22
3.3.2. Attention-based Multimodal Fusion Model 24
Chapter 4. Segment-level Traffic Speed Estimation on Highway
Corridor . 26
4.1. Study Site and Data Description 26
4.1.1. Description of Study Site 26
4.1.2. Description of VDS and DSRC Data 29
4.2. Model Structure . 31
4.2.1. Model Framework 31
4.2.1.1. Parameter Setting . 33
4.2.1.2. Evaluation Metric . 33
4.2.2. Model Composition 34
4.3. Results 36
iv
4.3.1. Empirical Analysis . 36
4.3.2. Results of Traffic Speed Estimation 37
4.3.3. Application of Proposed Model to Other Location 41
4.3.4. Comparison Analysis 42
4.4. Validation Using a Drone Dataset 43
4.5.1. Validation of sensor measurements 45
4.5. Discussion 48
Chapter 5. Lane-level Traffic Volume Estimation in Urban Network 50
5.1. Study Site and Data Description 50
5.1.1. Description of Study Site 50
5.1.2. Description of the CCTV and DSRC Data . 51
5.2. Multimodal Fusion Model Structure 54
5.2.1. Problem Definitions 54
5.2.2. Model Framework 55
5.2.2.1. Feature Extraction 56
5.2.2.2. Feature Fusion 58
5.2.2.3. Estimation of Traffic Volume 59
5.2.3. Model Composition 61
5.3. Results 62
5.3.1. Empirical Analysis . 62
5.3.2. Results of Traffic Volume Estimation 63
5.3.3. Comparison Analysis 65
5.4. Comparison with Single-modality Model 67
5.4.1. Results of Traffic Volume Estimation by Lane 67
5.4.2. Results of Traffic Volume Estimation by Time Resolution 70
5.5. Discussion 72
Chapter 6. Attention-based Traffic Volume Estimation in Urban
Network 74
6.1. Study Site and Data Description 74
6.1.1. Description of Study Site 74
v
6.1.2. Description of the CCTV and DSRC data 75
6.2. Attention-based Multimodal Fusion Model Structure 79
6.2.1. Problem Definition . 79
6.2.2. Model framework 80
6.2.2.1. Feature Extraction 81
6.2.2.2. Attention mechanism 82
6.2.2.3. Fusion and Estimation 83
6.2.3. Model Composition 84
6.3. Results 85
6.3.1. Empirical Analysis . 85
6.3.2. Model Accuracy 86
6.3.3. Result of Attention Value 89
6.4. Interpretation and Application 90
6.4.1. Result of Daily Attention Value 90
6.4.2. Result of Linear Regression Analysis 92
6.4.3. Comparison of Attention and Shapley Values . 93
6.5. Discussion 96
Chapter 7. Conclusion 99
7.1. Summary 99
7.2. Future Research 102
초 록 109
vi박
