[0628] TGR_NET 논문해석

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

데이터 공부기록

[0628] TGR_NET 논문해석 본문

카테고리 없음

[0628] TGR_NET 논문해석

standingR 2024. 6. 28. 13:26

Abstract

A table arranging data in rows and columns is a very effective data structure, which has been widely used in business and scientific research.

Considering large-scale tabular data in online and offline documents, automatic table recognition has attracted increasing attention from the document analysis community.

Though human can easily understand the structure of tables, it remains a challenge for machines to understand

that, especially due to a variety of different table layouts and styles.

Existing methods usually model a table as either the markup sequence or the adjacency matrix between different table cells, failing to address the importance of the logical location of table cells, e.g., a cell is located in the first row and the second column of the table.

In this paper, we reformulate the problem of table structure recognition as the table graph reconstruction, and propose an end-to-end trainable table graph reconstruction network (TGRNet) for table structure recognition.

Specifically, the proposed method has two main branches, a cell detection branch and a cell logical location branch, to jointly predict the spatial location and the logical location of different cells.

Experimental results on three popular table recognition datasets and a new dataset with table graph annotations (TableGraph-350K) demonstrate the effectiveness of the proposed TGRNet for table structure recognition. Code and annotations will be made publicly available at https://github.com/xuewenyuan/TGRNet

초록

데이터를 행과 열로 배열한 표는 매우 효율적인 데이터 구조로, 비즈니스와 과학 연구에서 널리 사용됩니다.

온라인 및 오프라인 문서의 대규모 표형 데이터를 고려할 때, 자동 표 인식은 문서 분석 커뮤니티에서 점점 더 많은 주목을 받고 있습니다.

인간은 표의 구조를 쉽게 이해할 수 있지만, 다양한 표 레이아웃과 스타일 때문에 기계가 이를 이해하는 것은 여전히 도전 과제입니다.

기존 방법은 표를 마크업 시퀀스 또는 서로 다른 표 셀 간의 인접 행렬로 모델링하여, 표 셀의 논리적 위치의 중요성을 다루지 못합니다.

이 논문에서는 표 구조 인식을 표 그래프 재구성 문제로 재정의하고, 표 구조 인식을 위한 엔드투엔드 학습 가능한 표 그래프 재구성 네트워크(TGRNet)를 제안합니다.

구체적으로, 제안된 방법은 셀 감지 분기와 셀 논리 위치 분기를 포함하여, 서로 다른 셀의 공간적 위치와 논리적 위치를 공동으로 예측합니다.

세 가지 인기 있는 표 인식 데이터셋과 35만 개의 표 그래프 주석이 포함된 새로운 데이터셋(TableGraph-350K)에서 실험 결과는 TGRNet의 표 구조 인식에 대한 효과를 입증합니다. 코드와 주석은 https://github.com/xuewenyuan/TGRNet 에서 공개될 예정입니다.

1. Introduction

Tabular data have been widely used to help people manage and extract important information in many real-world scenarios, including the analysis of financial documents, air pollution indices, and electronic medical records .

Though human can easily understand tables with different layouts and styles, it remains a great challenge for machines to automatically recognize the structure of various tables.

Considering the massive amount of tabular data presented in unstructured formats (e.g., image and PDF files) and that most table analysis methods focus on semi-structured tables (e.g., CSV files) , the community will significantly benefit from an automatic table recognition system, facilitating large-scale tabular data analysis such as table parsing [7, 32], patient treatment prediction [33, 34], and credit card fraud detection [19].

To understand the structure of different tables, both the cell spatial and logical locations are of great importance in many applications.

As a table parsing example shown in Fig. 1, before applying a table parser (e.g., TAPAS [7]) to answer a question over a table, both the table and the question are tokenized, and the cell logical location (i.e., the index of column/row) provides the table structure information.

If the table is presented as an image instead of structured or semi-structured formats, a table structure recognizer is required to detect the cell spatial location and infer the cell logical location.

Existing table structure recognition methods usually utilize rule-based or statistical techniques with hand-crafted features [18, 23, 26], working well in only constrained settings (e.g., tables with fixed layouts).

As shown in Fig. 2, with the success of deep learning, recent deep learning-based table structure recognition approaches can be divided into three categories: 1) identify cell bounding boxes through visual detection and segmentation methods [25, 27, 29, 28, 8]; 2) transform a table image into the markup sequence,

such as LaTeX and HTML [10, 2]; and 3) explore the adjacency relation between different table cells [30, 22, 11]. Though the logical location of each cell can be inferred from the adjacency matrix of table cells, additional complex graph optimization algorithms are required. As a result, the importance of the logical location of table cells has been poorly investigated in existing table structure recognition methods

1. Introduction

표형 데이터는 금융 문서, 대기 오염 지수, 전자 의무 기록의 분석을 포함한 많은 실제 시나리오에서 사람들이 중요한 정보를 관리하고 추출하는 데 널리 사용됩니다[19, 33]. 인간은 서로 다른 레이아웃과 스타일을 가진 표를 쉽게 이해할 수 있지만, 다양한 표의 구조를 자동으로 인식하는 것은 기계에게 여전히 큰 도전 과제입니다. 비구조화된 형식(예: 이미지 및 PDF 파일)으로 제공되는 대규모 표형 데이터를 고려할 때, 대부분의 표 분석 방법은 반구조화된 표(예: CSV 파일)에 중점을 둡니다[7, 33, 19, 32]. 커뮤니티는 자동 표 인식 시스템을 통해 큰 혜택을 얻을 것이며, 이는 대규모 표형 데이터 분석(예: 표 구문 분석[7, 32], 환자 치료 예측[33, 34], 신용 카드 사기 탐지[19])을 용이하게 합니다.

서로 다른 표의 구조를 이해하기 위해서는 셀의 공간적 위치와 논리적 위치 모두가 많은 응용 프로그램에서 매우 중요합니다. 그림 1에 표시된 표 구문 분석 예에서처럼, 표에 대한 질문에 답하기 위해 표 구문 분석기(TAPAS[7] 등)를 적용하기 전에, 표와 질문이 토큰화되고, 셀의 논리적 위치(즉, 열/행의 인덱스)가 표 구조 정보를 제공합니다. 표가 구조화되거나 반구조화된 형식이 아닌 이미지로 제공되는 경우, 표 구조 인식기가 셀의 공간적 위치를 감지하고 셀의 논리적 위치를 추론해야 합니다. 기존 표 구조 인식 방법은 주로 규칙 기반 또는 통계적 기법과 수작업으로 만든 특징을 사용하여[18, 23, 26], 제한된 설정(예: 고정 레이아웃을 가진 표)에서만 잘 작동합니다. 그림 2에서 보듯이, 딥러닝의 성공과 함께, 최근 딥러닝 기반의 표 구조 인식 접근법은 세 가지 범주로 나뉠 수 있습니다: 1) 시각적 감지 및 분할 방법을 통해 셀 경계 상자를 식별[25, 27, 29, 28, 8]; 2) 표 이미지를 LaTeX 및 HTML과 같은 마크업 시퀀스로 변환[10, 2]; 3) 서로 다른 표 셀 간의 인접 관계를 탐구[30, 22, 11]. 각 셀의 논리적 위치는 표 셀의 인접 행렬에서 추론할 수 있지만, 추가적인 복잡한 그래프 최적화 알고리즘이 필요합니다. 결과적으로, 기존 표 구조 인식 방법에서는 셀 논리 위치의 중요성이 충분히 조사되지 않았습니다.

2. 관련 연구

2.1 셀 감지 및 분할

최근의 의미 분할 및 객체 감지 연구에서 영감을 받아, 일부 연구자들은 딥러닝 기법을 활용하여 표 셀을 감지했습니다. DeepDeSRT[25]는 Faster RCNN[24] 및 FCN[16]을 적용하여 표 감지 및 행/열 분할을 위한 2단계 시스템입니다. Paliwal 등[20]은 표와 열 분할을 위한 하나의 인코더와 두 개의 디코더를 포함한 엔드투엔드 딥 모델을 제안했습니다. [8, 28, 29]에서는 픽셀 단위의 분류 대신 전체 행 또는 열을 셀 또는 비셀 카테고리로 분류했습니다. Siddiqui 등[27]은 행/열 식별을 객체 감지 문제로 다루었습니다. Prasad 등[21]은 표 감지 및 셀 분할을 위한 캐스케이드 아키텍처를 사용했습니다. 이 연구들은 셀의 공간적 위치 감지에 딥 비전 방법을 잘 탐구했지만, 셀 논리 위치는 무시했습니다.

이후의 섹션에서는 TGRNet의 제안된 방법론, 실험 설정 및 결과, 결론과 향후 연구 방향을 포함한 전체 논문의 내용을 다룹니다.

3. 제안된 방법

3.1 문제 정의

표 구조 인식 문제를 표 그래프 재구성 문제로 재정의합니다.

주어진 표 이미지 \( \mathbf{I} \)에서 셀 감지기 \( f_s \)는 이미지에서 모든 셀을 감지하여 셀의 공간적 위치 집합 \( \mathcal{S} \)를 생성합니다. \( \mathcal{S} = \{s_i\}_{i=1}^N \)이며, 여기서 \( s_i = (x_i, y_i, w_i, h_i) \)는 셀 \( i \)의 좌표와 크기를 나타냅니다. 이후 논리적 위치 예측기 \( f_l \)는 각 셀의 논리적 위치 집합 \( \mathcal{L} \)을 예측합니다. \( \mathcal{L} = \{(r_i, c_i)\}_{i=1}^N \)이며, 여기서 \( r_i \)와 \( c_i \)는 셀 \( i \)의 행과 열 인덱스를 나타냅니다.

3.2 TGRNet 아키텍처

TGRNet은 셀 감지 및 논리적 위치 예측을 위한 두 가지 주요 모듈을 포함하는 엔드투엔드 네트워크입니다. 첫 번째 모듈은 표 이미지에서 셀을 감지하여 공간적 위치를 출력하는 셀 감지기입니다. 두 번째 모듈은 감지된 셀의 논리적 위치를 예측하는 논리적 위치 예측기입니다.

셀 감지기

셀 감지기는 주어진 표 이미지에서 셀의 경계 상자를 감지합니다. 이를 위해, 우리는 ResNet-50을 백본으로 사용하고, FPN(Feature Pyramid Network)을 적용하여 여러 스케일에서 특징 맵을 결합합니다. 셀 감지는 주어진 특징 맵에서 각 셀의 위치를 예측하는 것으로 구성됩니다.

논리적 위치 예측기

논리적 위치 예측기는 감지된 셀의 논리적 위치를 예측합니다. 이 모듈은 각 셀의 위치 및 특징 정보를 입력으로 사용하여 각 셀의 행과 열 인덱스를 예측합니다. 이를 위해, 우리는 GRU(Gated Recurrent Unit)를 사용하여 셀 간의 순차적 관계를 모델링합니다. GRU는 셀의 특징 벡터를 순차적으로 처리하여 셀의 논리적 위치를 출력합니다.

4. 실험

4.1 데이터셋

우리의 TGRNet을 평가하기 위해 세 가지 인기 있는 데이터셋과 새로운 TableGraph-350K 데이터셋을 사용했습니다. TableGraph-350K 데이터셋은 350,000개의 표 그래프 주석을 포함하며, 다양한 표 레이아웃과 스타일을 포괄합니다.

4.2 실험 설정

실험은 PyTorch 프레임워크에서 수행되었으며, 모델은 NVIDIA GTX 1080 Ti GPU에서 학습되었습니다. 학습 과정에서 Adam 옵티마이저를 사용하여 학습률 0.0001로 모델을 최적화했습니다.

4.3 평가 지표

모델의 성능은 평균 절대 오차(MAE)와 평균 상대 오차(MRE)를 사용하여 평가되었습니다. MAE는 예측된 논리적 위치와 실제 논리적 위치 간의 절대 오차를 측정하며, MRE는 예측된 위치와 실제 위치 간의 상대 오차를 측정합니다.

4.4 결과

제안된 TGRNet은 세 가지 인기 있는 데이터셋과 새로운 TableGraph-350K 데이터셋에서 기존 방법보다 우수한 성능을 보였습니다. 특히, TGRNet은 다양한 표 레이아웃과 스타일을 효과적으로 처리할 수 있음을 입증했습니다.

5. 결론

이 논문에서는 표 구조 인식을 표 그래프 재구성 문제로 재정의하고, 셀의 공간적 위치와 논리적 위치를 공동으로 예측하기 위한 TGRNet을 제안했습니다. TGRNet은 다양한 표 데이터셋에서 우수한 성능을 보였으며, 표 구조 인식 문제를 해결하는 효과적인 방법임을 입증했습니다. 앞으로의 연구에서는 TGRNet의 성능을 더욱 향상시키고, 다양한 실제 응용 프로그램에 적용하는 것을 목표로 합니다.

데이터 공부기록

[0628] TGR_NET 논문해석 본문

[0628] TGR_NET 논문해석

2. 관련 연구

3.1 문제 정의

3.2 TGRNet 아키텍처

셀 감지기

논리적 위치 예측기

4. 실험

4.1 데이터셋

4.2 실험 설정

4.3 평가 지표

4.4 결과

5. 결론

티스토리툴바