[2021-12-28] 오늘의 자연어처리

2021. 12. 28. 17:40paper-of-the-day

반응형

"A Passage to India": Pre-trained Word Embeddings for Indian Languages

 

Dense word vectors or 'word embeddings' which encode semantic properties of words, have now become integral to NLP tasks like Machine Translation (MT), Question Answering (QA), Word Sense Disambiguation (WSD), and Information Retrieval (IR). In this paper, we use various existing approaches to create multiple word embeddings for 14 Indian languages. We place these embeddings for all these languages, viz., Assamese, Bengali, Gujarati, Hindi, Kannada, Konkani, Malayalam, Marathi, Nepali, Odiya, Punjabi, Sanskrit, Tamil, and Telugu in a single repository. Relatively newer approaches that emphasize catering to context (BERT, ELMo, etc.) have shown significant improvements, but require a large amount of resources to generate usable models. We release pre-trained embeddings generated using both contextual and non-contextual approaches. We also use MUSE and XLM to train cross-lingual embeddings for all pairs of the aforementioned languages. To show the efficacy of our embeddings, we evaluate our embedding models on XPOS, UPOS and NER tasks for all these languages. We release a total of 436 models using 8 different approaches. We hope they are useful for the resource-constrained Indian language NLP. The title of this paper refers to the famous novel 'A Passage to India' by E.M. Forster, published initially in 1924.

 

의 의미적 특성을 인코딩하는 조밀한 단어 벡터 또는 '단어 임베딩' 단어, 이제는 기계 번역(MT)과 같은 NLP 작업에 필수적이 되었다. QA(질문 응답), WSD(워드 센스 명확화) 및 정보 검색(IR). 본 논문에서, 우리는 다음을 만들기 위해 다양한 기존 접근법을 사용한다. 14개의 인도 언어를 위한 여러 단어 임베딩입니다. 이 임베딩은 다음에 사용합니다. 이 모든 언어들, 비즈, 아삼어, 벵골어, 구자라트어, 힌디어, 칸나다어, 콘카니어, 말라얄람어, 마라티어, 네팔어, 오디야어, 푼자비어, 산스크리트어, 타밀어 및 Telugu는 단일 저장소에 있습니다. 다음을 강조하는 비교적 새로운 접근 방식 문맥(BERT, ELMo 등)에 따라 상당한 개선을 보였지만, 사용 가능한 모델을 생성하는 데 많은 리소스가 필요합니다. 출시합니다. 상황별 및 비상황별 모두를 사용하여 생성된 사전 교육된 임베딩 접근. 또한 MUSE 및 XLM을 사용하여 모든 언어 간 임베딩을 교육합니다. 앞서 말한 언어들의 쌍. 우리 임베딩의 효과를 보여주기 위해 우리는 이 모든 것에 대해 XPOS, UPOS 및 NER 작업에 대한 임베딩 모델을 평가한다. 언어들 우리는 8가지 다른 접근법을 사용하여 총 436개의 모델을 출시합니다. 우리는 자원이 제한된 인도어 NLP에 유용하기를 바란다. 그 이 논문의 제목은 E.M.의 유명한 소설 '인도로 가는 길'을 가리킨다. 1924년에 처음 출판된 포스터. 

 

 

An Interdisciplinary Approach for the Automated Detection and Visualization of Media Bias in News Articles

 

Media coverage has a substantial effect on the public perception of events. Nevertheless, media outlets are often biased. One way to bias news articles is by altering the word choice. The automatic identification of bias by word choice is challenging, primarily due to the lack of gold-standard data sets and high context dependencies. In this research project, I aim to devise data sets and methods to identify media bias. To achieve this, I plan to research methods using natural language processing and deep learning while employing models and using analysis concepts from psychology and linguistics. The first results indicate the effectiveness of an interdisciplinary research approach. My vision is to devise a system that helps news readers become aware of media coverage differences caused by bias. So far, my best performing BERT-based model is pre-trained on a larger corpus consisting of distant labels, indicating that distant supervision has the potential to become a solution for the difficult task of bias detection.

 

언론 보도는 사건에 대한 대중의 인식에 상당한 영향을 미친다. 그럼에도 불구하고, 언론 매체들은 종종 편파적이다. 뉴스 기사를 편향시키는 한 가지 방법은 선택이라는 단어를 바꿔서 말이야 단어별 편향 자동 식별 주로 골드 표준 데이터 세트가 부족하고 데이터 표준이 없기 때문에 선택하기가 어렵습니다. 컨텍스트 종속성이 높습니다. 이 연구 프로젝트에서 나는 데이터 세트를 고안하는 것을 목표로 한다. 미디어 편향을 식별하는 방법. 이를 위해 나는 방법을 연구할 계획이다. 모델을 사용하는 동안 자연어 처리와 딥 러닝을 사용합니다. 심리학과 언어학의 분석 개념을 이용합니다. 첫 번째 결과 학제간 연구 접근법의 효과를 나타낸다. 나의 비전 뉴스 독자들이 미디어 보도에 대해 알 수 있도록 돕는 시스템을 고안하는 것이다. 편향으로 인한 차이. 지금까지 BERT 기반 모델 중 성능이 가장 뛰어납니다. 멀리 있는 라벨로 구성된 더 큰 말뭉치에 사전 훈련되어, 다음을 나타낸다. 원거리 감독은 어려운 사람들을 위한 해결책이 될 수 있는 잠재력을 가지고 있다. 바이어스 감지 작업. 

 

 

Pedagogical Word Recommendation: A novel task and dataset on personalized vocabulary acquisition for L2 learners

 

When learning a second language (L2), one of the most important but tedious components that often demoralizes students with its ineffectiveness and inefficiency is vocabulary acquisition, or more simply put, memorizing words. In light of such, a personalized and educational vocabulary recommendation system that traces a learner's vocabulary knowledge state would have an immense learning impact as it could resolve both issues. Therefore, in this paper, we propose and release data for a novel task called Pedagogical Word Recommendation (PWR). The main goal of PWR is to predict whether a given learner knows a given word based on other words the learner has already seen. To elaborate, we collect this data via an Intelligent Tutoring System (ITS) that is serviced to ~1M L2 learners who study for the standardized English exam, TOEIC. As a feature of this ITS, students can directly indicate words they do not know from the questions they solved to create wordbooks. Finally, we report the evaluation results of a Neural Collaborative Filtering approach along with an exploratory data analysis and discuss the impact and efficacy of this dataset as a baseline for future studies on this task.

 

제2외국어를 배울 때 가장 중요하지만 지루하다. 비효과적인 것으로 종종 학생들의 사기를 떨어뜨리는 요소들 비효율성은 어휘 습득, 더 간단히 말하면 단어를 암기하는 것이다. 이러한 점에 비추어, 개인화되고 교육적인 어휘를 추천합니다. 학습자의 어휘 지식 상태를 추적하는 시스템은 어마어마할 것이다 학습 효과로 두 가지 문제를 모두 해결할 수 있습니다. 그러므로, 이 논문에서, 우리는 교육학적 단어라는 새로운 과제에 대한 자료를 제안하고 발표하다. 권장 사항(PWR) PWR의 주요 목적은 주어진 것의 여부를 예측하는 것이다. 학습자는 학습자가 이미 본 다른 단어를 기반으로 주어진 단어를 알고 있습니다. 자세히 말하면, 우리는 ITS(Intelligent Tutoring System)를 통해 이 데이터를 수집한다. 그것은 표준화된 영어를 공부하는 100만 L2 학습자들에게 제공된다. 시험, 토익. 이 IT의 특징으로 학생들은 단어를 직접 나타낼 수 있다. 그들은 단어책을 만들기 위해 풀었던 질문들을 알지 못한다. 마지막으로. 신경 협력 필터링 접근법의 평가 결과를 보고한다. 탐색적 데이터 분석과 함께 의 영향과 효과에 대해 논의한다. 이 작업에 대한 향후 연구를 위한 기준 데이터 집합. 

 

 

반응형