论文标题
基于PAGSUSURI NG RNN转移学习技术SA低资源语言
Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource Language
论文作者
论文摘要
诸如菲律宾之类的低资源语言遭受数据稀缺性,这使得为菲律宾语言开发NLP应用程序具有挑战性。转移学习(TL)技术的使用减轻了低资源环境中的这个问题。近年来,基于变压器的模型被证明在低资源任务中有效,但由于其高计算和内存要求,面临可访问性的挑战。因此,需要更便宜但有效的选择。本文有三个贡献。首先,发布针对菲律宾语言的预训练的AWD-LSTM语言模型。其次,仇恨语音分类任务中的基准AWD-LSTM表明它与基于变压器的模型相同。第三,使用退化测试分析AWD-LSTM在低资源设置中的性能,并将其与基于变压器的模型进行比较。 ------- ANG MGA低资源语言Tulad ng Filipino ay gipit sa可访问na datos kaya't mahirap gumawa ng mga应用程序sa wikang ito。 ANG MGA转移学习(TL)技术AY恶意制造Tulong Para SA低资源设置O MGA Pagkakataong Gipit SA Datos。 SA MGA NAGDAANG TAON,NANAIG ANG MGA TRONSSIONER基于TL技术,以下SA低资源任务ngunit ito ay ay mataas na compute and Memory要求Kaya Nangangailangan ng Mas Mura Mura Mura Mura Pero Epektibong。 Ang Papel Na Ito Ay May May Tatlong Kontribusyon。 una,maglabas ng预先培训的AWD-LSTM语言模型Sa Wikang Filipino Upang Maging Tuntungan Sa Pagbuo NG MGA NLP应用程序Sa Wikang Filipino。 Pangalawa,Mag基准NG AWD-LSTM SA Hate Spece Clansication在Ipakita Na Kayang Nitong Makipagsabayan SA MGA Transformer的模型上。 Pangatlo,Suriin Ang Performance NG AWD-LSTM SA低资源设置游戏Ang Ang Ang dradation Test在Ikumpara Ito sa Mga Transformer基于基于的模型。
Low-resource languages such as Filipino suffer from data scarcity which makes it challenging to develop NLP applications for Filipino language. The use of Transfer Learning (TL) techniques alleviates this problem in low-resource setting. In recent years, transformer-based models are proven to be effective in low-resource tasks but faces challenges in accessibility due to its high compute and memory requirements. For this reason, there's a need for a cheaper but effective alternative. This paper has three contributions. First, release a pre-trained AWD-LSTM language model for Filipino language. Second, benchmark AWD-LSTM in the Hate Speech classification task and show that it performs on par with transformer-based models. Third, analyze the the performance of AWD-LSTM in low-resource setting using degradation test and compare it with transformer-based models. ----- Ang mga low-resource languages tulad ng Filipino ay gipit sa accessible na datos kaya't mahirap gumawa ng mga applications sa wikang ito. Ang mga Transfer Learning (TL) techniques ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos. Sa mga nagdaang taon, nanaig ang mga transformer-based TL techniques pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements kaya nangangailangan ng mas mura pero epektibong alternatibo. Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino. Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer-based models. Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource setting gamit ang degradation test at ikumpara ito sa mga transformer-based models.