[2022-03-22] 오늘의 자연어처리

2022. 3. 22. 10:30paper-of-the-day

반응형

 

BIOS: An Algorithmically Generated Biomedical Knowledge Graph

 

Biomedical knowledge graphs (BioMedKGs) are essential infrastructures for biomedical and healthcare big data and artificial intelligence (AI), facilitating natural language processing, model development, and data exchange. For many decades, these knowledge graphs have been built via expert curation, which can no longer catch up with the speed of today's AI development, and a transition to algorithmically generated BioMedKGs is necessary. In this work, we introduce the Biomedical Informatics Ontology System (BIOS), the first large scale publicly available BioMedKG that is fully generated by machine learning algorithms. BIOS currently contains 4.1 million concepts, 7.4 million terms in two languages, and 7.3 million relation triplets. We introduce the methodology for developing BIOS, which covers curation of raw biomedical terms, computationally identifying synonymous terms and aggregating them to create concept nodes, semantic type classification of the concepts, relation identification, and biomedical machine translation. We provide statistics about the current content of BIOS and perform preliminary assessment for term quality, synonym grouping, and relation extraction. Results suggest that machine learning-based BioMedKG development is a totally viable solution for replacing traditional expert curation.

 

바이오메디컬 지식그래프(BioMedKG)는 델과 델이 공동으로 제공하는 바이오메디컬 및 의료 빅데이터와 인공지능(AI), 자연어 처리, 모델 개발 및 데이터 교환을 촉진합니다. 수십 년 동안 이러한 지식 그래프는 전문가 큐레이션을 통해 구축되어 왔습니다. 오늘날 AI의 발전 속도를 따라잡을 수 없습니다. 알고리즘으로 생성된 BioMedKG로 전환해야 합니다. 이 작품에서는 우리는 바이오메디컬 정보학 온톨로지 시스템(BIOS)을 첫 번째 대규모로 도입한다. 기계 학습에 의해 완전히 생성된 공개적으로 이용 가능한 BioMedKG를 확장한다. 알고리즘입니다. BIOS에는 현재 410만 개의 컨셉이 포함되어 있으며, 740만 개의 용어가 포함되어 있습니다. 두 개의 언어와 730만 개의 관계가 있습니다. 방법론을 소개합니다. 바이오메디컬 용어 큐레이션을 다루는 BIOS를 개발하는데, 컴퓨터상에서 동의어를 특정하고 그것들을 집약하여 작성한다. 개념 노드, 개념의 의미 유형 분류, 관계 신원 확인, 생물의학 기계 번역. 다음 통계 정보를 제공합니다. 현재 BIOS 콘텐츠 및 기간별 예비평가 실시 품질, 동의어 그룹화 및 관계 추출. 조사결과에 따르면 머신러닝 기반의 BioMedKG 개발은 완전히 실현 가능한 솔루션입니다. 기존의 전문가 큐레이션을 대체하고 있습니다. 

 

 

Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for Underdocumented Languages

 

Recent progress in NLP is driven by pretrained models leveraging massive datasets and has predominantly benefited the world's political and economic superpowers. Technologically underserved languages are left behind because they lack such resources. Hundreds of underserved languages, nevertheless, have available data sources in the form of interlinear glossed text (IGT) from language documentation efforts. IGT remains underutilized in NLP work, perhaps because its annotations are only semi-structured and often language-specific. With this paper, we make the case that IGT data can be leveraged successfully provided that target language expertise is available. We specifically advocate for collaboration with documentary linguists. Our paper provides a roadmap for successful projects utilizing IGT data: (1) It is essential to define which NLP tasks can be accomplished with the given IGT data and how these will benefit the speech community. (2) Great care and target language expertise is required when converting the data into structured formats commonly employed in NLP. (3) Task-specific and user-specific evaluation can help to ascertain that the tools which are created benefit the target language speech community. We illustrate each step through a case study on developing a morphological reinflection system for the Tsimchianic language Gitksan.

 

최근 NLP의 진전은 대규모 기술을 활용한 사전 검증된 모델에 의해 추진되고 있습니다. 데이터셋을 구축하여 세계 정치 및 경제 전반에 큰 이익을 가져다 주고 있습니다. 초능력 기술적으로는 불충분한 언어는 뒤에 남습니다.왜냐하면 그런 자원이 부족하다. 그럼에도 불구하고, 수백 개의 부족한 언어들은 사용 가능한 데이터 소스(Interline Glossed Text(IGT; 라인 간 광택 텍스트) 형식)에서 언어 문서화의 대처. IGT는 NLP 작업에서 아직 충분히 활용되지 않았습니다. 왜냐하면 주석은 반구조적이고 언어적인 경우가 많기 때문입니다. 이 백서를 통해 IGT 데이터를 성공적으로 활용할 수 있는 사례를 제시합니다. 대상 언어 전문지식을 이용할 수 있는 경우. 델은 특히 다큐멘터리 언어학자와의 협업을 위해. 델의 백서는, 다음의 로드맵을 제공하고 있습니다. IGT 데이터를 활용한 프로젝트의 성공: (1) 어떤 NLP를 정의해야 하는지 확인하는 것이 중요합니다. 주어진 IGT 데이터를 사용하여 작업을 수행할 수 있으며 이러한 데이터가 어떤 이점을 얻을 수 있는지 여부 언어 커뮤니티. (2) 세심한 주의와 대상 언어 전문지식이 필요하다. 데이터를 NLP에서 일반적으로 사용되는 구조화된 형식으로 변환할 때. (3) 태스크별 및 사용자별 평가를 통해 툴이 언어 언어 커뮤니티에 도움이 됩니다. 델은 설명하겠습니다 형태학적 재굴절 개발에 대한 사례 연구를 통한 각 단계 침치아어 Gitcan을 위한 시스템입니다. 

 

 

CaMEL: Case Marker Extraction without Labels

 

We introduce CaMEL (Case Marker Extraction without Labels), a novel and challenging task in computational morphology that is especially relevant for low-resource languages. We propose a first model for CaMEL that uses a massively multilingual corpus to extract case markers in 83 languages based only on a noun phrase chunker and an alignment system. To evaluate CaMEL, we automatically construct a silver standard from UniMorph. The case markers extracted by our model can be used to detect and visualise similarities and differences between the case systems of different languages as well as to annotate fine-grained deep cases in languages in which they are not overtly marked.

 

우리는 CaMEL(Case Marker Extraction without Labels)이라는 소설과 특히 관련된 컴퓨터 형태학에서 어려운 작업 저자원 언어 CaMEL의 첫 번째 모델을 제안합니다. 대규모 다국어 코퍼스를 통해 83개 언어로 사례 마커를 추출할 수 있습니다. 명사구 청커와 정렬 시스템에서만 사용할 수 있습니다. CaMEL을 평가하기 위해 UniMorph에서 실버 스탠다드를 자동으로 구축합니다. 대/소문자 마커 우리의 모델에 의해 추출된 것은 유사점을 감지하고 시각화하는 데 사용될 수 있다. 서로 다른 언어의 사례 체계 간의 차이점뿐만 아니라 명확하지 않은 언어로 세밀한 심증례에 주석을 달다. 표시했다. 

 

 

반응형