ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 学位論文
  2. 博士論文

少資源言語及び方言における多言語有害情報検出

https://doi.org/10.19000/0002000831
https://doi.org/10.19000/0002000831
dcb186c5-c9ba-4923-8321-500342f219e4
名前 / ファイル ライセンス アクション
甲222_TANJIM 甲222_TANJIM MAHMUD.pdf (8.7 MB)
Item type 学位論文 / Thesis or Dissertation(1)
公開日 2025-04-28
タイトル
タイトル Multilingual Cyberbullying Detection in Low-Resource Languages and Dialects
言語 en
タイトル
タイトル 少資源言語及び方言における多言語有害情報検出
言語 ja
言語
言語 eng
資源タイプ
資源 http://purl.org/coar/resource_type/c_db06
タイプ doctoral thesis
ID登録
ID登録 10.19000/0002000831
ID登録タイプ JaLC
アクセス権
アクセス権 open access
アクセス権URI http://purl.org/coar/access_right/c_abf2
著者 Tanjim, Mahmud

× Tanjim, Mahmud

en Tanjim, Mahmud

Search repository
抄録
内容記述タイプ Abstract
内容記述 Cyberbullying detection in low-resource languages and dialects presents significant challengesdue to limited annotated datasets, linguistic diversity, and unique cultural expressions such assarcasm. This thesis addresses these challenges by focusing on 21 languages and dialects, including Bangla and Chittagonian, through the development of novel methods that leverage linguistic similarity, cross-lingual transfer learning, and machine learning.
Firstly, I conducted a systematic review of all studies published in years 2017–2023 on cyberbullying detection in low-resource languages, identifying critical gaps such as inconsistent definitions, annotation biases, or limited consideration of dialectal variations. To address these gaps, I developed and annotated Chittagonian dataset containing vulgar remarks. A keyword extraction baseline method demonstrated near-human performance in extracting vulgar terms, although showed a low performance in vulgar sentence classification.
Next, I applied machine learning (ML) to further enhance the accuracy by addressing limitations in the keyword-based approach. Additionally, I created Bangla and Chittagonian cyberbullying dataset, and validated it using standard inter-rater agreement metrics. These datasets were tested across various machine and deep learning models, with transformer-based models achieving up to 84% accuracy. Further error inspection showed that sarcasm can be difficult for even the newest ML methods. Therefore I addressed this problem using a novel approach that integrates sarcasm detection with explainable AI techniques. This approach reduced false positives in sarcastic remark classification, improving detection accuracy.
Furthermore, I proposed a transfer learning method based on source-target language similarity to enhance zero-shot cross-lingual transfer learning for cyberbullying detection in low-resource languages and dialects. I collected publicly available datasets for 21 languages, from diverse language groups such as Indo-Aryan (Bengali, Chittagonian, etc.), Sino-Tibetan (Bodo), Dravidian (Tamil, Kannada, etc.), Semitic (Arabic), Oghuz (Turkish), Austronesian (Indonesian, Vietnamese), and Indo-European (Polish, English). Initially, two multilingual transformers, mBERT and XLM-RoBERTa, were tested across these languages. mBERT outperformed XLM-RoBERTa in those experiments. Thus, I selected mBERT for further experiments with zero-shot cross-lingual transfer learning. To determine optimal source-target language pairings, I employed various language
similarity metrics such as eLinguistics, lang2vec, qWALS, and EzGlot, revealing correlations between language similarity and classifier performance.
This work establishes a scalable framework for multilingual cyberbullying detection in low-resource languages, advancing the understanding of linguistic diversity, sarcasm detection, and transfer language optimization. The findings contribute actionable insights for developing robust detection systems, fostering safer online environments globally.
言語 en
抄録
内容記述タイプ Abstract
内容記述 少資源言語及び方言における有害情報(誹謗中傷等)検出の研究には,正解タグ付きデータセット不足,言語の多様性不足,皮肉等文化依存の表現による曖昧性等,多くの課題が存在している.本研究では,言語的類似性,言語間転移学習及びTransformerベースの先進的な機械学習技術を活用した手法の開発を行い,21の言語と方言に焦点を当て,これらにおける有害情報の自動検出の課題に取り組んだ.
 まず,少資源言語における有害情報検出に関する2017〜2023年発表の全ての研究に関してシステマティックレビューを行い,従来研究における課題を調査した.その結果,少資源言語及び方言における有害情報検出研究の不足を始め,有害情報関連用語の定義の不一致,データのアノテーションにおけるバイアス,方言考慮の不足などの重要な課題を特定した.これらの課題に対処するため,卑猥表現と猥褻表現を特定し,それらの表現を含む新規のチッタゴン語データセットを収集した.さらに,入力文からそのような卑猥・猥褻表現を自動抽出する手法を提案し,キーワード抽出をベースにした有害情報検出のベースライン手法を提案した.卑猥・猥褻表現抽出用の手法は人間に近い性能を示し,キーワード抽出ベースの有害情報検出の手法を将来にも応用可能にした.しかし,キーワードベースのアプローチには限界がありそれに対処し,機械学習手法も応用し,さらに精度を向上させた.
 その次,ベンガル語とチッタゴン語のための有害情報検出用の新たなデータセットを作成し,アノテーター間信頼性指標を用いて検証した.このデータセットを用いて,複数の機械学習及び深層学習のアルゴリズムを分類に用いて実験的に比較した.その結果,トランスフォーマーベースのモデルは最大84%の精度を達成した.さらに,有害情報検出の研究で見過ごされがちである皮肉検出をLIMEなどの説明可能なAI技術を統合する手法を用いて分析を行った.この手法により,皮肉な発言の分類における誤検出が減少し検出精度が向上した.
 次には,少資源言語と方言における有害情報検出のためのゼロショット言語間転移学習を応用し,学習起点言語と目的言語の類似性に基づく転移学習手法を提案した.そのために,まず,インド・アーリア語族,シナ・チベット語族,ドラビダ語族,セム語族など,多様な言語群にまたがる21言語を含む統一した多言語の有害情報検出用のデータセットを開発した.当初、このデータセットを用いて2つの多言語のトランスフォーマーモデル,mBERTとXLM-RoBERTaを実験的に検証し比較した.結果として,mBERTがXLM-RoBERTaより優れた結果となり,そのモデルをゼロショットの言語間転移学習のさらなる実験に選出した.最適な起点言語と目的言語のペアを決定するためには,eLinguistics,lang2vec,qWALS,EzGlotという複数の言語類似性指標を使用し,言語類似性と分類器の性能に相関が存在することを明らかにしました.
 本研究は,少資源言語における有害情報検出のためのスケーラブルなフレームワークを確立し,言語の多様性,皮肉検出,移転言語の最適化に関する理解を深めることに貢献している.これらの知見は,堅牢な検出システムの開発に貢献し,グローバルなオンライン環境の安全性向上を促進する.
言語 ja
bibliographic_information
発行日 2025-03
学位名
言語 ja
学位名 博士(工学)
item_7_degree_grantor_61
学位授与機関識別子Scheme kakenhi
学位授与機関識別子 10106
言語 ja
学位授与機関名 北見工業大学
dissertation_number
学位授与番号 甲第222号
item_7_text_66
言語 ja
研究科・専攻名 生産基盤工学専攻
学位授与年月日
学位授与年月日 2025-03-21
戻る
0
views
See details
Views

Versions

Ver.1 2025-05-01 00:59:26.828980
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3