WEKO3
アイテム
少資源言語及び方言における多言語有害情報検出
https://doi.org/10.19000/0002000831
https://doi.org/10.19000/0002000831dcb186c5-c9ba-4923-8321-500342f219e4
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 学位論文 / Thesis or Dissertation(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2025-04-28 | |||||||
タイトル | ||||||||
タイトル | Multilingual Cyberbullying Detection in Low-Resource Languages and Dialects | |||||||
言語 | en | |||||||
タイトル | ||||||||
タイトル | 少資源言語及び方言における多言語有害情報検出 | |||||||
言語 | ja | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源 | http://purl.org/coar/resource_type/c_db06 | |||||||
タイプ | doctoral thesis | |||||||
ID登録 | ||||||||
ID登録 | 10.19000/0002000831 | |||||||
ID登録タイプ | JaLC | |||||||
アクセス権 | ||||||||
アクセス権 | open access | |||||||
アクセス権URI | http://purl.org/coar/access_right/c_abf2 | |||||||
著者 |
Tanjim, Mahmud
× Tanjim, Mahmud
|
|||||||
抄録 | ||||||||
内容記述タイプ | Abstract | |||||||
内容記述 | Cyberbullying detection in low-resource languages and dialects presents significant challengesdue to limited annotated datasets, linguistic diversity, and unique cultural expressions such assarcasm. This thesis addresses these challenges by focusing on 21 languages and dialects, including Bangla and Chittagonian, through the development of novel methods that leverage linguistic similarity, cross-lingual transfer learning, and machine learning. Firstly, I conducted a systematic review of all studies published in years 2017–2023 on cyberbullying detection in low-resource languages, identifying critical gaps such as inconsistent definitions, annotation biases, or limited consideration of dialectal variations. To address these gaps, I developed and annotated Chittagonian dataset containing vulgar remarks. A keyword extraction baseline method demonstrated near-human performance in extracting vulgar terms, although showed a low performance in vulgar sentence classification. Next, I applied machine learning (ML) to further enhance the accuracy by addressing limitations in the keyword-based approach. Additionally, I created Bangla and Chittagonian cyberbullying dataset, and validated it using standard inter-rater agreement metrics. These datasets were tested across various machine and deep learning models, with transformer-based models achieving up to 84% accuracy. Further error inspection showed that sarcasm can be difficult for even the newest ML methods. Therefore I addressed this problem using a novel approach that integrates sarcasm detection with explainable AI techniques. This approach reduced false positives in sarcastic remark classification, improving detection accuracy. Furthermore, I proposed a transfer learning method based on source-target language similarity to enhance zero-shot cross-lingual transfer learning for cyberbullying detection in low-resource languages and dialects. I collected publicly available datasets for 21 languages, from diverse language groups such as Indo-Aryan (Bengali, Chittagonian, etc.), Sino-Tibetan (Bodo), Dravidian (Tamil, Kannada, etc.), Semitic (Arabic), Oghuz (Turkish), Austronesian (Indonesian, Vietnamese), and Indo-European (Polish, English). Initially, two multilingual transformers, mBERT and XLM-RoBERTa, were tested across these languages. mBERT outperformed XLM-RoBERTa in those experiments. Thus, I selected mBERT for further experiments with zero-shot cross-lingual transfer learning. To determine optimal source-target language pairings, I employed various language similarity metrics such as eLinguistics, lang2vec, qWALS, and EzGlot, revealing correlations between language similarity and classifier performance. This work establishes a scalable framework for multilingual cyberbullying detection in low-resource languages, advancing the understanding of linguistic diversity, sarcasm detection, and transfer language optimization. The findings contribute actionable insights for developing robust detection systems, fostering safer online environments globally. |
|||||||
言語 | en | |||||||
抄録 | ||||||||
内容記述タイプ | Abstract | |||||||
内容記述 | 少資源言語及び方言における有害情報(誹謗中傷等)検出の研究には,正解タグ付きデータセット不足,言語の多様性不足,皮肉等文化依存の表現による曖昧性等,多くの課題が存在している.本研究では,言語的類似性,言語間転移学習及びTransformerベースの先進的な機械学習技術を活用した手法の開発を行い,21の言語と方言に焦点を当て,これらにおける有害情報の自動検出の課題に取り組んだ. まず,少資源言語における有害情報検出に関する2017〜2023年発表の全ての研究に関してシステマティックレビューを行い,従来研究における課題を調査した.その結果,少資源言語及び方言における有害情報検出研究の不足を始め,有害情報関連用語の定義の不一致,データのアノテーションにおけるバイアス,方言考慮の不足などの重要な課題を特定した.これらの課題に対処するため,卑猥表現と猥褻表現を特定し,それらの表現を含む新規のチッタゴン語データセットを収集した.さらに,入力文からそのような卑猥・猥褻表現を自動抽出する手法を提案し,キーワード抽出をベースにした有害情報検出のベースライン手法を提案した.卑猥・猥褻表現抽出用の手法は人間に近い性能を示し,キーワード抽出ベースの有害情報検出の手法を将来にも応用可能にした.しかし,キーワードベースのアプローチには限界がありそれに対処し,機械学習手法も応用し,さらに精度を向上させた. その次,ベンガル語とチッタゴン語のための有害情報検出用の新たなデータセットを作成し,アノテーター間信頼性指標を用いて検証した.このデータセットを用いて,複数の機械学習及び深層学習のアルゴリズムを分類に用いて実験的に比較した.その結果,トランスフォーマーベースのモデルは最大84%の精度を達成した.さらに,有害情報検出の研究で見過ごされがちである皮肉検出をLIMEなどの説明可能なAI技術を統合する手法を用いて分析を行った.この手法により,皮肉な発言の分類における誤検出が減少し検出精度が向上した. 次には,少資源言語と方言における有害情報検出のためのゼロショット言語間転移学習を応用し,学習起点言語と目的言語の類似性に基づく転移学習手法を提案した.そのために,まず,インド・アーリア語族,シナ・チベット語族,ドラビダ語族,セム語族など,多様な言語群にまたがる21言語を含む統一した多言語の有害情報検出用のデータセットを開発した.当初、このデータセットを用いて2つの多言語のトランスフォーマーモデル,mBERTとXLM-RoBERTaを実験的に検証し比較した.結果として,mBERTがXLM-RoBERTaより優れた結果となり,そのモデルをゼロショットの言語間転移学習のさらなる実験に選出した.最適な起点言語と目的言語のペアを決定するためには,eLinguistics,lang2vec,qWALS,EzGlotという複数の言語類似性指標を使用し,言語類似性と分類器の性能に相関が存在することを明らかにしました. 本研究は,少資源言語における有害情報検出のためのスケーラブルなフレームワークを確立し,言語の多様性,皮肉検出,移転言語の最適化に関する理解を深めることに貢献している.これらの知見は,堅牢な検出システムの開発に貢献し,グローバルなオンライン環境の安全性向上を促進する. |
|||||||
言語 | ja | |||||||
bibliographic_information |
発行日 2025-03 |
|||||||
学位名 | ||||||||
言語 | ja | |||||||
学位名 | 博士(工学) | |||||||
item_7_degree_grantor_61 | ||||||||
学位授与機関識別子Scheme | kakenhi | |||||||
学位授与機関識別子 | 10106 | |||||||
言語 | ja | |||||||
学位授与機関名 | 北見工業大学 | |||||||
dissertation_number | ||||||||
学位授与番号 | 甲第222号 | |||||||
item_7_text_66 | ||||||||
言語 | ja | |||||||
研究科・専攻名 | 生産基盤工学専攻 | |||||||
学位授与年月日 | ||||||||
学位授与年月日 | 2025-03-21 |