[2022-01-19] 오늘의 자연어처리

2022. 1. 19. 10:30paper-of-the-day

반응형

 

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign

 

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.

 

대규모 집단 의사 결정 이해 및 설명 공동체 조직과 공동체 역학이 어떻게 집단 행동을 형성하는가 사회과학 연구의 핵심에 있다. 이 연구에서 우리는 다음의 행동을 연구한다. 수백만 명의 회원이 있는 수천 개의 공동체 우리는 소설을 정의한다. 과제: 어떤 공동체가 예상치 못한 대규모로 착수할 것인지 예측합니다. 분산 캠페인 이를 위해 텍스트를 결합한 하이브리드 모델을 개발한다. 단서, 커뮤니티 메타 데이터 및 구조적 속성. 우리는 이것을 어떻게 보여 준다. 다면 모델은 대규모 집합체를 정확하게 예측할 수 있다. 분산 환경에서 의사 결정을 내릴 수 있습니다. 적용 가능성을 입증한다. 레딧의 연구/배치를 통해 우리 모델의 대규모 온라인 실험을 하는 것. 수천 개의 커뮤니티에서 자체 조직화된 수백만 명의 사용자가 충돌하고 그들의 의제를 실현하기 위한 노력에 협력했다. 우리의 하이브리드 모델은 0.826의 높은 F1 예측 점수를 달성한다. 우리는 그것을 발견한다. 예측 정확도에 있어서 세밀한 메타 분석만큼 중요하다. 명시적인 구조적 특징이 더 작은 역할을 하는 반면, 텍스트 단서는 더 작은 역할을 한다. 우리의 모델을 해석하면서, 우리는 에 대한 다양한 사회적 통찰력을 제공하고 지지한다. 연구개발에 참여한 지역사회의 독특한 특징들 실험. 우리의 결과와 분석은 그 원동력이 되는 복잡한 사회적 역학을 밝혀냈다. 집단적 행동과 사용자 조정을 촉진하는 요인에 대해 설명합니다. 그 규모와 r/place 실험의 고유한 조건은 다음을 암시한다. 연구 결과는 온라인 행동주의와 같은 더 넓은 맥락에서 적용될 수 있다(반박). 혐오 발언의 확산과 정치적 양극화 감소 더 넓은. 모델의 적용 가능성은 광범위한 분석을 통해 입증된다. 월스트리트베츠 커뮤니티, R/Place 및 GameStop 쇼트 스퀴즈 2021년 캠페인 

 

 

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign

 

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.

 

대규모 집단 의사 결정 이해 및 설명 공동체 조직과 공동체 역학이 어떻게 집단 행동을 형성하는가 사회과학 연구의 핵심에 있다. 이 연구에서 우리는 다음의 행동을 연구한다. 수백만 명의 회원이 있는 수천 개의 공동체 우리는 소설을 정의한다. 과제: 어떤 공동체가 예상치 못한 대규모로 착수할 것인지 예측합니다. 분산 캠페인 이를 위해 텍스트를 결합한 하이브리드 모델을 개발한다. 단서, 커뮤니티 메타 데이터 및 구조적 속성. 우리는 이것을 어떻게 보여 준다. 다면 모델은 대규모 집합체를 정확하게 예측할 수 있다. 분산 환경에서 의사 결정을 내릴 수 있습니다. 적용 가능성을 입증한다. 레딧의 연구/배치를 통해 우리 모델의 대규모 온라인 실험을 하는 것. 수천 개의 커뮤니티에서 자체 조직화된 수백만 명의 사용자가 충돌하고 그들의 의제를 실현하기 위한 노력에 협력했다. 우리의 하이브리드 모델은 0.826의 높은 F1 예측 점수를 달성한다. 우리는 그것을 발견한다. 예측 정확도에 있어서 세밀한 메타 분석만큼 중요하다. 명시적인 구조적 특징이 더 작은 역할을 하는 반면, 텍스트 단서는 더 작은 역할을 한다. 우리의 모델을 해석하면서, 우리는 에 대한 다양한 사회적 통찰력을 제공하고 지지한다. 연구개발에 참여한 지역사회의 독특한 특징들 실험. 우리의 결과와 분석은 그 원동력이 되는 복잡한 사회적 역학을 밝혀냈다. 집단적 행동과 사용자 조정을 촉진하는 요인에 대해 설명합니다. 그 규모와 r/place 실험의 고유한 조건은 다음을 암시한다. 연구 결과는 온라인 행동주의와 같은 더 넓은 맥락에서 적용될 수 있다(반박). 혐오 발언의 확산과 정치적 양극화 감소 더 넓은. 모델의 적용 가능성은 광범위한 분석을 통해 입증된다. 월스트리트베츠 커뮤니티, R/Place 및 GameStop 쇼트 스퀴즈 2021년 캠페인 

 

 

Multilingual Open Text 1.0: Public Domain News in 44 Languages

 

We present a new multilingual corpus containing text in 44 languages, many of which have relatively few existing resources for natural language processing. The first release of the corpus contains over 2.7 million news articles and 1 million shorter passages published between 2001--2021, collected from Voice of America news websites. We describe our process for collecting, filtering, and processing the data. The source material is in the public domain, our collection is licensed using a creative commons license (CC BY 4.0), and all software used to create the corpus is released under the MIT License. The corpus will be regularly updated as additional documents are published.

 

우리는 44개 언어로 된 텍스트를 포함하는 새로운 다국어 말뭉치를 제시한다. 그들은 자연어 처리를 위한 상대적으로 적은 자원을 가지고 있다. 말뭉치의 첫 번째 릴리스는 270만 개 이상의 뉴스 기사와 1개를 포함합니다. 2001년부터 2021년 사이에 출판된 수백만 개의 짧은 구절들, 의 소리로부터 수집되었다. 미국 뉴스 웹사이트. 우리는 수집, 필터링, 그리고 우리의 프로세스를 설명한다. 데이터 처리. 출처 자료는 공공영역에 있습니다. 컬렉션은 크리에이티브 커먼즈 라이센스(CC BY 4.0)를 사용하여 라이센스가 부여되며, 말뭉치를 만드는 데 사용되는 소프트웨어는 MIT 라이선스에 따라 배포된다. 그 말뭉치는 추가 문서가 발행됨에 따라 정기적으로 업데이트될 것이다. 

 

 

반응형