[2022-01-17] 오늘의 자연어처리

2022. 1. 17. 10:30paper-of-the-day

반응형

 

How Can Graph Neural Networks Help Document Retrieval: A Case Study on CORD19 with Concept Map Generation

 

Graph neural networks (GNNs), as a group of powerful tools for representation learning on irregular data, have manifested superiority in various downstream tasks. With unstructured texts represented as concept maps, GNNs can be exploited for tasks like document retrieval. Intrigued by how can GNNs help document retrieval, we conduct an empirical study on a large-scale multi-discipline dataset CORD-19. Results show that instead of the complex structure-oriented GNNs such as GINs and GATs, our proposed semantics-oriented graph functions achieve better and more stable performance based on the BM25 retrieved candidates. Our insights in this case study can serve as a guideline for future work to develop effective GNNs with appropriate semantics-oriented inductive biases for textual reasoning tasks like document retrieval and classification. All code for this case study is available at this https URL.

 

표현을 위한 강력한 도구 그룹으로 신경망(GNN)을 그래프로 표시 불규칙한 데이터에 대한 학습, 다양한 다운스트림에서 우월성을 드러냈다 개념 맵으로 표현된 구조화되지 않은 텍스트로, GNNs는 될 수 있다 문서 검색과 같은 작업에 악용됩니다. GNN이 어떤 도움을 줄 수 있는지 궁금함 문서 검색, 우리는 대규모에 대한 경험적 연구를 수행한다. 다중 분야 데이터 세트 CORD-19. 결과는 복합체 대신 GINs와 GATs와 같은 구조 지향 GNN, 우리가 제안한 의미 중심 그래프 함수는 BM25를 기반으로 더 우수하고 안정적인 성능을 달성한다. 회수된 후보자들. 이 사례에서 우리의 통찰력은 지침으로 작용할 수 있다. 적절한 의미 중심과 함께 효과적인 GNN을 개발하기 위한 향후 작업 문서 검색과 같은 텍스트 추론 작업에 대한 귀납적 편향 분류 이 사례 연구의 모든 코드는 다음에서 확인할 수 있습니다. 이 https URL. 

 

 

Compressing Word Embeddings Using Syllables

 

This work examines the possibility of using syllable embeddings, instead of the often used $n$-gram embeddings, as subword embeddings. We investigate this for two languages: English and Dutch. To this end, we also translated two standard English word embedding evaluation datasets, WordSim353 and SemEval-2017, to Dutch. Furthermore, we provide the research community with data sets of syllabic decompositions for both languages. We compare our approach to full word and $n$-gram embeddings. Compared to full word embeddings, we obtain English models that are 20 to 30 times smaller while retaining 80% of the performance. For Dutch, models are 15 times smaller for 70% performance retention. Although less accurate than the $n$-gram baseline we used, our models can be trained in a matter of minutes, as opposed to hours for the $n$-gram approach. We identify a path toward upgrading performance in future work. All code is made publicly available, as well as our collected English and Dutch syllabic decompositions and Dutch evaluation set translations.

 

이 연구는 음절 임베딩 대신 음절 임베딩의 사용 가능성을 조사한다. 하위 단어 임베딩으로 자주 사용되는 $n$-그램 임베딩. 우리는 이것을 조사한다. 두 가지 언어의 경우: 영어와 네덜란드어. 이를 위해 우리는 두 개를 번역하기도 했다. 표준 영어 단어 임베딩 평가 데이터 세트, WordSim353 및 SemEval-2017, 네덜란드어로. 더 나아가, 우리는 연구 커뮤니티에 다음을 제공한다. 두 언어의 음절 분해 데이터 세트 우리는 우리의 것을 비교한다. 전체 단어 및 $n$-그램 임베딩에 접근합니다. 전체 단어 대비 임베딩, 우리는 20배에서 30배 작은 영어 모델을 얻는 동안 80%의 성능을 유지할 수 있습니다. 네덜란드의 경우, 모델들은 15배 더 작습니다. 70%의 성능 유지. $n$-그램 기준선보다는 정확하지 않지만 사용, 우리의 모델들은 몇 시간 대신 몇 분 안에 훈련될 수 있다. $n$-그램 접근법 성능 향상을 위한 경로를 확인합니다. 장래의 일 모든 코드는 우리가 수집한 것뿐만 아니라 공개적으로 사용할 수 있습니다. 영어 및 네덜란드어 음절 분해 및 네덜란드어 평가 세트 번역. 

 

 

NorDiaChange: Diachronic Semantic Change Dataset for Norwegian

 

We describe NorDiaChange: the first diachronic semantic change dataset for Norwegian. NorDiaChange comprises two novel subsets, covering about 80 Norwegian nouns manually annotated with graded semantic change over time. Both datasets follow the same annotation procedure and can be used interchangeably as train and test splits for each other. NorDiaChange covers the time periods related to pre- and post-war events, oil and gas discovery in Norway, and technological developments. The annotation was done using the DURel framework and two large historical Norwegian corpora. NorDiaChange is published in full under a permissive license, complete with raw annotation data and inferred diachronic word usage graphs (DWUGs).

 

우리는 노르디아체인지(NorDiaChange)를 설명한다. 노르웨이어의 NorDiaChange는 약 80개를 포함하는 두 개의 새로운 하위 집합으로 구성된다. 노르웨이 명사는 시간이 지남에 따라 등급화된 의미 변화에 수동으로 주석을 달았다. 둘다요. 데이터셋은 동일한 주석 절차를 따르며 서로 교환하여 사용할 수 있습니다. 훈련과 시험이 서로 갈라지는 것처럼요 NorDiaChange는 기간을 다룹니다. 전후 사건, 노르웨이에서의 석유 및 가스 발견, 그리고 기술 발전 주석은 DURel 프레임워크를 사용하여 수행되었다. 그리고 역사적인 노르웨이 말뭉치 두 개도요 NorDiaChange 전체 게시 허용 라이센스 하에서, 원시 주석 데이터로 완료되고 유추됩니다. DWUG(diachronic word use graph)입니다. 

 

 

반응형