[2022-03-30] 오늘의 자연어처리

2022. 3. 30. 10:30paper-of-the-day

반응형

 

Earnings-22: A Practical Benchmark for Accents in the Wild

 

Modern automatic speech recognition (ASR) systems have achieved superhuman Word Error Rate (WER) on many common corpora despite lacking adequate performance on speech in the wild. Beyond that, there is a lack of real-world, accented corpora to properly benchmark academic and commercial models. To ensure this type of speech is represented in ASR benchmarking, we present Earnings-22, a 125 file, 119 hour corpus of English-language earnings calls gathered from global companies. We run a comparison across 4 commercial models showing the variation in performance when taking country of origin into consideration. Looking at hypothesis transcriptions, we explore errors common to all ASR systems tested. By examining Individual Word Error Rate (IWER), we find that key speech features impact model performance more for certain accents than others. Earnings-22 provides a free-to-use benchmark of real-world, accented audio to bridge academic and industrial research.

 

현대의 자동 음성 인식(ASR) 시스템은 초인적인 기능을 실현했습니다. 많은 일반적인 말뭉치에서의 Wer(Word Error Rate)가 적절하지 않은 경우에도 WER(Word Error Rate) 야생에서 연설하는 퍼포먼스 그 이상은 현실세계가 부족하고 학술 및 상업 모델을 적절히 벤치마킹하기 위해 악센트를 부여했습니다. 로. ASR 벤치마킹에 이러한 유형의 연설이 반영되도록 합니다. 수입-22, 125개 파일, 119시간 영어 수입 전화 말뭉치 글로벌 기업으로부터 수집한 것입니다. 4개의 상용 모델을 비교합니다. 원산지를 가져올 때 성능의 변화를 나타내는 모습 고려 사항. 가설의 전사를 보면, 우리는 공통적인 오류를 탐구한다. 모든 ASR 시스템으로 이행합니다. IWER(Individual Word Error Rate)를 조사함으로써 주요 음성 기능이 특정 악센트의 모델 성능에 더 많은 영향을 미친다는 것을 발견한다. 남들보다요. 수익-22는 실제 환경에서 자유롭게 사용할 수 있는 벤치마크를 제공합니다. 학술 및 산업 연구를 연결하기 위한 악센트 오디오 

 

 

Streaming parallel transducer beam search with fast-slow cascaded encoders

 

Streaming ASR with strict latency constraints is required in many speech recognition applications. In order to achieve the required latency, streaming ASR models sacrifice accuracy compared to non-streaming ASR models due to lack of future input context. Previous research has shown that streaming and non-streaming ASR for RNN Transducers can be unified by cascading causal and non-causal encoders. This work improves upon this cascaded encoders framework by leveraging two streaming non-causal encoders with variable input context sizes that can produce outputs at different audio intervals (e.g. fast and slow). We propose a novel parallel time-synchronous beam search algorithm for transducers that decodes from fast-slow encoders, where the slow encoder corrects the mistakes generated from the fast encoder. The proposed algorithm, achieves up to 20% WER reduction with a slight increase in token emission delays on the public Librispeech dataset and in-house datasets. We also explore techniques to reduce the computation by distributing processing between the fast and slow encoders. Lastly, we explore sharing the parameters in the fast encoder to reduce the memory footprint. This enables low latency processing on edge devices with low computation cost and a low memory footprint.

 

엄격한 레이텐시 제약이 있는 스트리밍 ASR은 많은 음성에서 필요합니다. 인식 어플리케이션 필요한 레이텐시를 달성하기 위해 스트리밍은 ASR 모델은 비스트리밍 ASR 모델에 비해 정확도가 떨어지기 때문에 미래 입력 컨텍스트의 경우. 이전 조사에서는 스트리밍과 RNN 변환기를 위한 비스트리밍 ASR은 캐스케이드 인과 관계를 통해 통합될 수 있다. 비패킷 인코더 이 작업은 이 캐스케이드 인코더 프레임워크에서 개선됩니다. 가변 입력 컨텍스트를 가진 2개의 스트리밍 비패키지 인코더를 활용함으로써 다양한 오디오 간격으로 출력을 생성할 수 있는 크기(예: 고속 및 느린) 우리는 새로운 병렬 시간 동기 빔 검색 알고리즘을 제안한다. 고속 저속 인코더에서 디코딩하는 변환기, 즉 저속 인코더에서 는 패스트 인코더에서 생성된 오류를 수정합니다. 제안된 알고리즘은 토큰 배출량을 약간 증가시켜 최대 20%의 WER 절감 달성 공용 Libispeech 데이터 세트와 사내 데이터 세트로 지연이 발생합니다. 또, 처리량을 분산시킴으로써 연산을 줄이는 기술 고속 인코더와 저속 인코더 마지막으로 파라미터의 공유에 대해 설명합니다. 인코더로 메모리 사용 공간을 줄입니다. 이것에 의해, 로의 저레이튼시 처리가 가능하게 됩니다. 엣지 디바이스는 계산 비용이 낮고 메모리 설치 공간이 적습니다. 

 

 

Training Compute-Optimal Large Language Models

 

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over \nummodels language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, \chinchilla, that uses the same compute budget as \gopher but with 70B parameters and 4$\times$ more more data. \chinchilla uniformly and significantly outperforms \Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that \chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, \chinchilla reaches a state-of-the-art average accuracy of 67.5\% on the MMLU benchmark, greater than a 7\% improvement over \gopher.

 

우리는 트레이닝을 위한 최적의 모델 크기와 토큰 수를 조사한다. 트랜스포머 언어 모델을 제공합니다. 그 전류는 큰 언어 모델은 상당히 충분히 훈련되지 않았습니다. 교육량을 유지하면서 언어 모델을 확장하는 데 중점을 두고 있다 데이터 상수입니다. 70개 이상의 \nummodel 언어 모델에 대한 트레이닝 500억에서 5000억 토큰에 대해 100만에서 160억 이상의 파라미터가 있습니다. 컴퓨팅 최적 교육을 위해 모델 크기 및 교육 토큰 수 균등하게 스케일링해야 한다: 모델 크기가 두 배로 증가할 때마다 트레이닝 토큰도 2배로 늘려야 합니다. 우리는 훈련에 의해 이 가설을 테스트한다. 예측 컴퓨팅 최적 모델 \chinchilla (동일한 컴퓨팅 예산을 사용하는) \gopher로 지정되지만 700B 파라미터와 4$\times$ 더 많은 데이터가 있습니다. \친칠라 \Gopher(280B), GPT-3(175B), Jurassic-1(178B) 및 Megatron-Turing NLG(530B)의 광범위한 범위에서의 다운스트림 평가 태스크 즉, \chinchilla는 다음 명령어를 사용합니다. 미세 조정 및 추론을 위한 컴퓨팅이 상당히 줄어들기 때문에 사용할 수 있습니다. 하이라이트로서 \chinchilla는 최첨단입니다. MMLU 벤치마크의 평균 정확도는 67.5 %로 7 %보다 높습니다. \gopher보다 향상되었습니다. 

 

 

반응형