[2022-01-18] 오늘의 자연어처리

2022. 1. 18. 10:30paper-of-the-day

반응형

 

NLP in Human Rights Research -- Extracting Knowledge Graphs About Police and Army Units and Their Commanders

 

In this working paper we explore the use of an NLP system to assist the work of Security Force Monitor (SFM). SFM creates data about the organizational structure, command personnel and operations of police, army and other security forces, which assists human rights researchers, journalists and litigators in their work to help identify and bring to account specific units and personnel alleged to have committed abuses of human rights and international criminal law. This working paper presents an NLP system that extracts from English language news reports the names of security force units and the biographical details of their personnel, and infers the formal relationship between them. Published alongside this working paper are the system's code and training dataset. We find that the experimental NLP system performs the task at a fair to good level. Its performance is sufficient to justify further development into a live workflow that will give insight into whether its performance translates into savings in time and resource that would make it an effective technical intervention.

 

이 작업 문서에서는 작업을 지원하기 위한 NLP 시스템의 사용에 대해 살펴봅니다. SFM(Security Force Monitor)을 사용합니다. SFM은 조직에 대한 데이터를 생성합니다. 경찰, 육군 및 기타 보안의 구조, 지휘 인력 및 운영 인권 연구자, 언론인, 소송가들을 돕는 힘 특정 단위 및 인력을 식별하고 설명하는 데 도움이 되는 작업 인권 유린과 국제 범죄 혐의를 받고 있는 이 작업 문서는 영어에서 추출한 NLP 시스템을 제시한다. 언어 뉴스는 보안군 부대의 이름과 인적사항을 보도한다. 그들의 인사에 대한 세부 사항을 알려주고, 그들 사이의 공식적인 관계를 유추합니다. 이 작업 문서와 함께 시스템 코드 및 교육 내용이 게시됩니다. 데이터 세트 우리는 실험적인 NLP 시스템이 박람회에서 과제를 수행한다는 것을 발견했다. 좋은 수준까지. 그 성능은 추가 개발을 정당화하기에 충분하다. 라이브 워크플로우로 전환하여 성능을 확인할 수 있습니다. 시간과 자원을 절약하여 효과적으로 사용할 수 있습니다. 기술적 개입 

 

 

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign

 

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.

 

대규모 집단 의사 결정 이해 및 설명 공동체 조직과 공동체 역학이 어떻게 집단 행동을 형성하는가 사회과학 연구의 핵심에 있다. 이 연구에서 우리는 다음의 행동을 연구한다. 수백만 명의 회원이 있는 수천 개의 공동체 우리는 소설을 정의한다. 과제: 어떤 공동체가 예상치 못한 대규모로 착수할 것인지 예측합니다. 분산 캠페인 이를 위해 텍스트를 결합한 하이브리드 모델을 개발한다. 단서, 커뮤니티 메타 데이터 및 구조적 속성. 우리는 이것을 어떻게 보여 준다. 다면 모델은 대규모 집합체를 정확하게 예측할 수 있다. 분산 환경에서 의사 결정을 내릴 수 있습니다. 적용 가능성을 입증한다. 레딧의 연구/배치를 통해 우리 모델의 대규모 온라인 실험을 하는 것. 수천 개의 커뮤니티에서 자체 조직화된 수백만 명의 사용자가 충돌하고 그들의 의제를 실현하기 위한 노력에 협력했다. 우리의 하이브리드 모델은 0.826의 높은 F1 예측 점수를 달성한다. 우리는 그것을 발견한다. 예측 정확도에 있어서 세밀한 메타 분석만큼 중요하다. 명시적인 구조적 특징이 더 작은 역할을 하는 반면, 텍스트 단서는 더 작은 역할을 한다. 우리의 모델을 해석하면서, 우리는 에 대한 다양한 사회적 통찰력을 제공하고 지지한다. 연구개발에 참여한 지역사회의 독특한 특징들 실험. 우리의 결과와 분석은 그 원동력이 되는 복잡한 사회적 역학을 밝혀냈다. 집단적 행동과 사용자 조정을 촉진하는 요인에 대해 설명합니다. 그 규모와 r/place 실험의 고유한 조건은 다음을 암시한다. 연구 결과는 온라인 행동주의와 같은 더 넓은 맥락에서 적용될 수 있다(반박). 혐오 발언의 확산과 정치적 양극화 감소 더 넓은. 모델의 적용 가능성은 광범위한 분석을 통해 입증된다. 월스트리트베츠 커뮤니티, R/Place 및 GameStop 쇼트 스퀴즈 2021년 캠페인 

 

 

CommonsenseQA 2.0: Exposing the Limits of AI through Gamification

 

Constructing benchmarks that test the abilities of modern natural language understanding models is difficult - pre-trained language models exploit artifacts in benchmarks to achieve human parity, but still fail on adversarial examples and make errors that demonstrate a lack of common sense. In this work, we propose gamification as a framework for data construction. The goal of players in the game is to compose questions that mislead a rival AI while using specific phrases for extra points. The game environment leads to enhanced user engagement and simultaneously gives the game designer control over the collected data, allowing us to collect high-quality data at scale. Using our method we create CommonsenseQA 2.0, which includes 14,343 yes/no questions, and demonstrate its difficulty for models that are orders-of-magnitude larger than the AI used in the game itself. Our best baseline, the T5-based Unicorn with 11B parameters achieves an accuracy of 70.2%, substantially higher than GPT-3 (52.9%) in a few-shot inference setup. Both score well below human performance which is at 94.1%.

 

현대 자연어 능력을 테스트하는 벤치마크 구성 모델을 이해하는 것은 어렵다 - 사전 훈련된 언어 모델 이용 인간 동등성을 달성하기 위한 벤치마크의 아티팩트, 그러나 여전히 적대적에는 실패한다. 상식의 부족을 보여주는 예시와 오류를 범한다. 이 작품에서는, 우리는 데이터 구축을 위한 프레임워크로서 게임화를 제안한다. 의 목표 게임에서 플레이어들은 사용하는 동안 라이벌 AI를 오도하는 질문을 작성하는 것이다. 추가 점수를 위한 특정 문구. 게임 환경은 사용자 향상으로 이어집니다. 참여, 그리고 동시에 게임 디자이너에게 제어권을 부여합니다. 데이터를 수집하여 규모에 맞는 고품질 데이터를 수집할 수 있습니다. 사용 방법 방법 우리는 14,343개의 예/아니오 질문을 포함하는 CommonsenseQA 2.0을 만든다. 보다 큰 크기의 모델에 대한 그것의 어려움을 입증한다. 게임 자체에 사용되는 AI입니다. 우리의 최고의 기준인 T5 기반 유니콘은 11B 매개변수는 GPT-3보다 상당히 높은 70.2%의 정확도를 달성한다. (52.9%) 몇 번의 추론 설정에서. 둘 다 인간의 성과에 훨씬 못 미치는 점수를 받았다. 그것은 94.1%이다. 

 

 

반응형