iPAS AI應用規劃師經典題庫

搜尋：

出題方向

NLP基本概念與範疇

文本前處理技術

文本表示方法 (Text Representation)

核心NLP任務 (Core NLP Tasks)

語言模型 (Language Models)

NLP應用場景

NLP評估指標

進階NLP模型與趨勢

★★★★★

自然語言處理 (Natural Language Processing, NLP) 的主要目標是什麼？

設計更快的電腦硬體

使電腦能夠理解、解釋和生成人類語言

開發新的程式語言

提高資料庫查詢效率

答案解析

自然語言處理 (NLP) 是人工智慧 (AI) 和語言學領域的一個分支，專注於實現電腦與人類自然語言之間的有效互動。其核心目標是賦予電腦處理和「理解」人類語言的能力，包括文本和語音，進而能夠執行如翻譯、情感分析、問答、摘要生成等任務。其他選項描述的是電腦科學的不同領域。

★★★★★

在文本前處理 (Text Preprocessing) 過程中，「斷詞」(Tokenization) 指的是什麼？

移除文本中不具重要意義的停用詞（Stop Words）

將詞語還原為其基本或詞根形式（如詞幹提取 Stemming 或詞形還原 Lemmatization）

將連續的文本切分成有意義的單元（如單字、詞語）的過程

計算文本中每個詞語出現的頻率

答案解析

斷詞 (Tokenization) 是 NLP 中最基礎且重要的前處理步驟之一。它的目的是將原始的、連續的文本流（如句子或段落）分解成一系列獨立的、有意義的單元，稱為「詞符」(Tokens)。這些詞符通常是單字、標點符號或數字。斷詞為後續的文本分析（如特徵提取、模型訓練）奠定了基礎。選項 A、B 分別描述停用詞移除和詞形還原/詞幹提取，選項 D 描述的是詞頻計算，這些都是 NLP 前處理或分析的不同步驟。

★★★★

TF-IDF (Term Frequency-Inverse Document Frequency) 是一種常用的文本表示方法，其中 IDF (Inverse Document Frequency) 的主要作用是什麼？

計算一個詞語在單一文件中出現的頻率

降低在許多文件中都普遍出現的詞語的權重，提高在少數文件中出現的詞語的權重

將詞語轉換成固定長度的向量

計算文件之間的相似度

答案解析

TF-IDF 是一種統計方法，用以評估一個詞語對於一個文件集或一個語料庫中的一份文件的重要程度。TF (Term Frequency) 指的是詞語在文件中的出現頻率。IDF (Inverse Document Frequency) 則衡量詞語的普遍性。如果一個詞語在很多文件中都出現，它的 IDF 值會較低；反之，如果只在少數文件中出現，IDF 值會較高。TF 和 IDF 相乘得到 TF-IDF 值，這個值可以突顯那些在特定文件中頻繁出現但在整個語料庫中相對罕見的詞語，這些詞語通常更能代表該文件的內容。因此，IDF 的主要作用是降低普遍詞（如停用詞）的影響力，提升具有區別性詞語的重要性。

★★★★

在 NLP 任務中，「命名實體識別」(Named Entity Recognition, NER) 的目標是？

判斷文本所表達的情感是正面、負面還是中性

標註文本中每個詞語的詞性（如名詞、動詞、形容詞）

從文本中找出具有特定意義的實體（如人名、地名、組織名、日期）並進行分類

將一種語言的文本自動翻譯成另一種語言

答案解析

命名實體識別 (NER) 是資訊提取 (Information Extraction) 的一個子任務，旨在定位和分類文本中預先定義好的命名實體類別。常見的實體類別包括人名 (PER)、組織名 (ORG)、地名 (LOC/GPE)、時間表達式 (TIME)、日期 (DATE)、貨幣 (MONEY)、百分比 (PERCENT) 等。NER 對於理解文本內容、建構知識圖譜、問答系統等應用至關重要。選項 A 是情感分析，選項 B 是詞性標註 (Part-of-Speech Tagging)，選項 D 是機器翻譯。

★★★★★

近年來在 NLP 領域取得巨大成功的 Transformer 模型，其核心機制是什麼？

卷積運算 (Convolution Operation)

循環連接 (Recurrent Connection)

自注意力機制 (Self-Attention Mechanism)

池化操作 (Pooling Operation)

答案解析

Transformer 模型（由 Google 在 2017 年的論文 "Attention Is All You Need" 中提出）摒棄了傳統的循環神經網路 (Recurrent Neural Network, RNN) 和卷積神經網路 (Convolutional Neural Network, CNN) 架構，完全基於自注意力機制 (Self-Attention) 來捕捉輸入序列內部的依賴關係以及輸入和輸出序列之間的關係。自注意力機制允許模型在處理序列中的某個詞語時，直接計算該詞語與序列中所有其他詞語的關聯程度（注意力權重），從而能夠更好地捕捉長距離依賴關係，並且易於平行化計算。卷積和池化主要用於 CNN，循環連接是 RNN 的核心。

★★★★

以下哪項是自然語言處理 (NLP) 的典型應用場景？

圖像辨識 (Image Recognition)

情感分析 (Sentiment Analysis)

語音合成 (Speech Synthesis)

推薦系統 (Recommender System)

答案解析

情感分析是 NLP 的一個重要應用，旨在分析文本（如評論、社群媒體貼文）中表達的情緒、觀點或態度，判斷其為正面、負面或中性。圖像辨識屬於電腦視覺 (Computer Vision) 領域。語音合成（Text-to-Speech, TTS）雖然與語言相關，但通常被視為語音處理 (Speech Processing) 的一部分，但與 NLP 密切相關。推薦系統雖然可能利用 NLP 技術來分析商品描述或使用者評論，但其本身是一個更廣泛的領域。情感分析是直接以處理和理解文本內容為核心的 NLP 應用。

★★★★

在文本前處理中，「停用詞」(Stop Words) 通常指的是什麼？

在文本中頻繁出現但通常不攜帶太多實際意義的詞語（如 "的"、"是"、"在"、"a"、"the"）

文本中拼寫錯誤的詞語

代表特定實體（如人名、地名）的詞語

具有強烈情感色彩的詞語

答案解析

停用詞是指在自然語言文本中出現頻率非常高，但對於理解文本主要內容或執行特定 NLP 任務（如資訊檢索、文本分類）貢獻不大或甚至可能產生干擾的詞語。例如，在中文中的「的」、「了」、「是」，在英文中的 "a"、"an"、"the"、"is"、"in" 等。在許多 NLP 應用的前處理階段，會將這些停用詞移除，以減少數據維度、降低計算複雜度並可能提高模型效能。

★★★★★

詞嵌入 (Word Embedding) 技術（如 Word2Vec, GloVe）的主要目的是什麼？

計算詞語在文本中出現的次數

將詞語映射到一個低維度的連續向量空間，使得語意相似的詞語在向量空間中距離較近

將詞語還原為它們的詞根形式

識別文本中的命名實體

答案解析

傳統的 one-hot encoding 表示詞語會導致維度災難且無法捕捉詞語間的語意關係。詞嵌入技術旨在學習詞語的分布式表示 (Distributed Representation)，將每個詞語表示為一個低維度（通常幾十到幾百維）的實數向量。這種表示方法的關鍵優勢在於它能夠捕捉詞語之間的語意和語法關係。在訓練好的詞嵌入空間中，語意相近的詞語（如 "國王" 和 "皇后"）或具有相似上下文的詞語，其對應的向量在空間中的距離會比較接近。這使得模型能夠更好地理解和泛化語言模式。

★★★

詞性標註 (Part-of-Speech Tagging, POS Tagging) 是 NLP 中的一項基礎任務，它的作用是？

為文本中的每個詞語標註其對應的語法詞性（如名詞、動詞、形容詞等）

分析句子的語法結構（如主語、謂語、賓語）

從文本中提取關鍵詞

判斷句子的情感傾向

答案解析

詞性標註 (POS Tagging) 是根據詞語在句子中的上下文，為其分配一個預定義的語法類別（詞性標籤）的過程。常見的詞性標籤包括名詞 (Noun, NN)、動詞 (Verb, VB)、形容詞 (Adjective, JJ)、副詞 (Adverb, RB)、介詞 (Preposition, IN)、代名詞 (Pronoun, PRP) 等。POS 標註是許多更高級 NLP 任務（如句法分析、命名實體識別、資訊提取）的基礎步驟，有助於消除詞語歧義並理解句子結構。選項 B 描述的是句法分析 (Syntactic Parsing)。

#10

★★★★

聊天機器人 (Chatbot) 主要運用了 NLP 中的哪些技術來理解使用者意圖並生成回應？

僅詞性標註 (POS Tagging)

僅命名實體識別 (NER)

意圖識別 (Intent Recognition)、實體提取 (Entity Extraction) 和自然語言生成 (NLG)

僅機器翻譯 (Machine Translation)

答案解析

現代聊天機器人通常包含以下核心 NLP 組件：1. 自然語言理解 (Natural Language Understanding, NLU)：負責理解使用者的輸入，主要包括 意圖識別（判斷使用者想要做什麼，如查詢天氣、訂票）和 實體提取（從使用者輸入中找出關鍵資訊，如地點、時間、人名，類似 NER）。2. 對話管理 (Dialogue Management)：追蹤對話狀態，決定下一步的回應策略。3. 自然語言生成 (Natural Language Generation, NLG)：根據對話管理決定的回應內容，生成自然、流暢的人類語言文本。因此，選項 C 涵蓋了理解使用者意圖和生成回應所需的關鍵技術。

#11

★★★

在評估機器翻譯 (Machine Translation) 系統的品質時，常用的自動評估指標 BLEU (Bilingual Evaluation Understudy) 主要衡量的是什麼？

機器翻譯輸出的 N-gram 片段與參考翻譯（人工翻譯）的 N-gram 片段的重疊程度

機器翻譯輸出與參考翻譯的語意相似度

機器翻譯輸出的語法正確性

使用者對機器翻譯結果的滿意度

答案解析

BLEU 是一種基於精確率 (Precision) 的評估指標，它通過比較機器翻譯結果（candidate）和一個或多個人工參考翻譯（references）之間 N-gram（通常是 1-gram 到 4-gram）的匹配程度來計算得分。BLEU 分數越高，表示機器翻譯結果與人工翻譯越接近。它還引入了簡潔懲罰因子 (Brevity Penalty) 來懲罰過短的翻譯。雖然 BLEU 方便快速，但它主要關注詞彙層面的匹配，不直接衡量語意相似度或語法流暢性，且與人類判斷有時存在差異。

#12

★★★★★

大型語言模型 (Large Language Models, LLMs) 如 GPT (Generative Pre-trained Transformer) 系列，其訓練通常採用什麼策略？

僅在少量標註數據上進行監督式學習 (Supervised Learning)

在海量無標註文本數據上進行自監督預訓練 (Self-supervised Pre-training)，然後在特定任務上進行微調 (Fine-tuning)

僅使用強化學習 (Reinforcement Learning)

僅使用基於規則的方法 (Rule-based Methods)

答案解析

大型語言模型的成功很大程度上歸功於「預訓練-微調」(Pre-training and Fine-tuning) 的範式。首先，模型在包含數十億甚至數萬億詞語的海量、多樣化的無標註文本數據上進行預訓練。預訓練通常採用自監督學習目標，如遮罩語言模型 (Masked Language Modeling, MLM, 如 BERT) 或下一個詞預測 (Next Token Prediction, 如 GPT)，讓模型從數據本身學習語言的通用模式、語法和語意知識。然後，預訓練好的模型可以在相對較小的、針對特定下游任務（如文本分類、問答）的標註數據上進行微調，使其適應該任務。這種策略有效地利用了大規模數據學習通用知識，並能快速適應新任務。

#13

★★★

詞形還原 (Lemmatization) 和詞幹提取 (Stemming) 的主要區別是什麼？

詞形還原會將詞語轉換為其字典中的基本形式（詞元 lemma），結果是實際存在的詞語；詞幹提取則通常通過移除詞綴得到詞幹，結果不一定是有效詞語。

詞幹提取速度較慢但更準確；詞形還原速度較快但可能不準確。

詞形還原只適用於英文；詞幹提取適用於所有語言。

兩者完全相同，只是名稱不同。

答案解析

詞形還原和詞幹提取都是將詞語的不同屈折形式（inflected forms）歸一化處理的技術。主要區別在於：詞形還原 (Lemmatization) 依賴詞彙庫和詞性信息，試圖將詞語還原為其字典中的基本形式（詞元，lemma），例如將 "am", "are", "is" 都還原為 "be"，將 "cars", "car's" 都還原為 "car"。結果保證是有效的詞語。詞幹提取 (Stemming) 通常使用一套啟發式規則（如 Porter Stemmer）來移除詞語的後綴（有時也包括前綴），以得到詞幹 (stem)。例如，可能將 "studies", "studying" 都提取為 "studi"。詞幹提取速度通常更快，但結果不保證是有效的詞語，且可能過度提取（如 "university" 變 "univers"）或提取不足。

#14

★★★

詞袋模型 (Bag-of-Words, BoW) 是一種簡單的文本表示方法，它的主要缺點是什麼？

計算複雜度非常高

忽略了詞語的順序和語法結構

無法處理未登錄詞 (Out-of-Vocabulary, OOV)

只能表示非常短的文本

答案解析

詞袋模型將文本表示為一個向量，其中每個維度對應詞彙表中的一個詞語，向量的值通常是該詞語在文本中的出現次數（或 TF-IDF 值）。這種方法非常簡單直觀，但其核心假設是將文本視為一堆無序的詞語集合（像袋子裡的詞），完全忽略了詞語之間的順序關係和文本的語法結構。例如，"狗咬人" 和 "人咬狗" 在 BoW 表示下可能完全相同（如果詞彙表只包含 "狗", "咬", "人"），但它們的語意顯然不同。這是 BoW 模型的主要局限性。

#15

★★★★

循環神經網路 (Recurrent Neural Network, RNN) 特別適合處理序列數據（如文本）的原因是？

使用了卷積核來提取局部特徵

完全基於注意力機制

其內部具有循環結構，可以將先前時間步的資訊傳遞到當前時間步，從而捕捉序列中的時間依賴性

每個時間步的計算是完全獨立的

答案解析

RNN 的核心特點是其神經元之間存在循環連接。在處理序列數據時，RNN 會在每個時間步接收一個輸入，並根據當前輸入和來自上一個時間步的隱藏狀態 (hidden state) 計算出當前的輸出和新的隱藏狀態。這個隱藏狀態就像模型的「記憶」，包含了到目前為止處理過的序列資訊。這種將歷史資訊不斷傳遞下去的機制，使得 RNN 能夠有效地建模序列數據中元素之間的順序關係和時間依賴性，這對於理解語言（詞語的順序很重要）至關重要。然而，標準 RNN 在處理長序列時會遇到梯度消失/爆炸問題，因此後續發展出了 LSTM、GRU 等改進結構。

#16

★★★

文本摘要 (Text Summarization) 任務旨在？

從一篇或多篇文檔中自動生成一段簡短、精煉的摘要，涵蓋原文的主要內容

將文本劃分成不同的主題

判斷文本的真實性

為文本中的詞語標註詞性

答案解析

文本摘要是 NLP 的一個重要應用，目標是創建一個能夠保留原始文檔核心資訊的縮減版本。摘要可以是抽取式 (Extractive)，即從原文中選擇重要的句子或短語組合而成；也可以是生成式 (Abstractive)，即模型理解原文內容後，用自己的話重新組織和生成摘要，可能包含原文中沒有的詞語。文本摘要對於快速獲取大量資訊的核心內容非常有幫助。選項 B 是主題模型 (Topic Modeling)，選項 C 是事實查核 (Fact Checking)，選項 D 是詞性標註。

#17

★★★★

在評估文本分類 (Text Classification) 任務（如情感分析）的模型效能時，精確率 (Precision) 和召回率 (Recall) 是常用的指標。請問召回率衡量的是什麼？

在所有被模型預測為正類的樣本中，實際為正類的比例

在所有實際為正類的樣本中，被模型成功預測為正類的比例

模型預測正確的樣本數佔總樣本數的比例

精確率和召回率的調和平均數

答案解析

在二元分類問題中（假設有正類 Positive 和負類 Negative）：

精確率 (Precision) = TP / (TP + FP)，衡量的是模型預測為正類的結果中有多少是真正確的（預測的準不準）。
召回率 (Recall) = TP / (TP + FN)，衡量的是所有實際為正類的樣本中有多少被模型找出來了（找的全不全）。

其中 TP (True Positive) 是真正類被預測為正類，FP (False Positive) 是假負類被預測為正類，FN (False Negative) 是真正類被預測為負類。選項 A 描述的是精確率。選項 C 描述的是準確率 (Accuracy)。選項 D 描述的是 F1-score。

#18

★★★★

BERT (Bidirectional Encoder Representations from Transformers) 模型與傳統的單向語言模型（如 GPT-1/2 的預訓練）相比，其主要創新點在於？

使用了更深層的神經網路

通過遮罩語言模型 (Masked Language Model, MLM) 實現了真正的雙向上下文表示學習

引入了注意力機制

使用了遷移學習 (Transfer Learning)

答案解析

傳統的語言模型（如 GPT）通常是單向的，即在預測一個詞時只能考慮其左側（前面）的上下文。而 BERT 的核心創新在於其預訓練任務之一——遮罩語言模型 (MLM)。MLM 隨機地遮蓋掉輸入句子中的一部分詞語 (tokens)，然後讓模型根據該詞語左右兩側的上下文來預測被遮蓋掉的原始詞語。這種方式使得 BERT 在預訓練階段就能夠同時利用左右兩邊的上下文資訊來學習每個詞語的表示，從而獲得更深層次、更豐富的雙向語意表示。雖然 BERT 也使用了 Transformer 的注意力機制和遷移學習，但其真正的突破在於通過 MLM 實現的雙向性。

#19

★★

自然語言處理 (NLP) 通常涉及處理哪種類型的資料？

非結構化的文本和語音資料

結構化的表格資料 (Tabular data)

圖像和影像資料

時間序列資料 (Time series data)

答案解析

NLP 主要關注的是人類用來交流的自然語言，其表現形式主要是文本（如文章、郵件、聊天記錄）和語音。這些資料通常是非結構化的，意味著它們沒有預先定義好的格式或組織方式（不像資料庫中的表格）。處理和理解這種非結構化的語言資料是 NLP 的核心挑戰。選項 B 是傳統數據分析或機器學習常處理的對象。選項 C 屬於電腦視覺。選項 D 也是機器學習的一個重要領域，但與 NLP 不同。

#20

★★★

依存句法分析 (Dependency Parsing) 的主要目標是？

標註每個詞的詞性

分析句子中詞語之間的語法依賴關係（如哪個詞修飾哪個詞，哪個詞是哪個詞的主語或賓語）

識別句子中的命名實體

將句子切分成詞語

答案解析

依存句法分析是句法分析 (Syntactic Parsing) 的一種方法，它不生成完整的句法樹結構（像成分句法分析 Constituency Parsing 那樣），而是專注於揭示句子中詞語之間一對一的修飾或依賴關係。分析結果通常表示為一個有向圖，其中節點是詞語，邊表示詞語間的依賴關係（如主謂關係、動賓關係、定中關係等），並標註依賴關係的類型。依存句法分析對於理解句子的深層結構和語意關係非常有幫助。選項 A 是詞性標註，C 是 NER，D 是斷詞。

#21

★★★★

Word2Vec 模型包含兩種主要的訓練架構：CBOW (Continuous Bag-of-Words) 和 Skip-gram。 Skip-gram 架構的訓練目標是？

根據中心詞預測其周圍的上下文詞語

根據上下文詞語預測中心詞

預測句子中的下一個詞

判斷兩個詞是否語意相關

答案解析

Word2Vec 的兩種架構目標相反：

CBOW (Continuous Bag-of-Words): 輸入是某個目標詞（中心詞）周圍的上下文詞語，目標是預測這個中心詞。它試圖從上下文"推斷"中心詞。
Skip-gram: 輸入是某個中心詞，目標是預測其周圍一定範圍內的上下文詞語。它試圖從中心詞"發散"到上下文。

一般認為，Skip-gram 對於低頻詞的處理效果更好，但在大型數據集上訓練速度較慢；CBOW 訓練速度較快。

#22

★★★

N-gram 語言模型是一種基於統計的語言模型，它的核心假設是？

每個詞的出現是完全獨立的

句子中所有詞語共享同一個向量表示

一個詞的出現機率僅取決於其前面有限的 N-1 個詞 (馬可夫假設)

必須使用神經網路來計算詞語機率

答案解析

N-gram 模型試圖計算一個詞序列（句子）出現的機率 P(W) = P(w1, w2, ..., wn)。直接計算這個聯合機率非常困難，N-gram 模型引入了馬可夫假設 (Markov Assumption)，即假設一個詞 wi 的出現機率主要由其前面的 N-1 個詞決定，而與更早的詞無關。例如，在 Bigram (N=2) 模型中，P(wi | w1, ..., wi-1) ≈ P(wi | wi-1)；在 Trigram (N=3) 模型中，P(wi | w1, ..., wi-1) ≈ P(wi | wi-2, wi-1)。這個假設大大簡化了機率計算，使得模型可以通過統計語料庫中 N-gram 的出現頻率來估計條件機率。

#23

★★★★

相較於 RNN/LSTM，Transformer 模型在處理長序列時的主要優勢是什麼？

模型參數更少

訓練所需的數據量更少

更容易進行平行化計算，且能更好地捕捉長距離依賴關係

不需要使用詞嵌入

答案解析

RNN/LSTM 由於其循環結構，計算必須按時間步順序進行，難以進行大規模平行化。此外，儘管 LSTM/GRU 緩解了梯度消失問題，但在處理非常長的序列時，捕捉遙遠的依賴關係仍然困難。Transformer 完全基於自注意力機制，每個位置的計算可以同時參考序列中的所有其他位置，這使得：1. 平行化：不同位置的計算可以高度平行化，大大加快了訓練速度。2. 長距離依賴：任意兩個位置之間的資訊傳遞路徑長度都是常數 O(1)（直接通過注意力計算），相比 RNN 的 O(n)，更容易捕捉長距離依賴關係。雖然 Transformer 參數通常更多，需要大量數據訓練，但其架構上的優勢使其在處理長序列和大規模訓練方面表現更優。

#24

★★★

問答系統 (Question Answering, QA) 根據其回答方式，可以分為哪幾種類型？

僅基於規則的和僅基於機器學習的

抽取式問答 (Extractive QA) 和生成式問答 (Generative QA)

單輪問答和多輪問答

開放領域問答和封閉領域問答

答案解析

問答系統可以從多個維度分類：

按回答方式：抽取式問答 (Extractive QA) 從提供的上下文（如一篇文章）中直接抽取一段連續的文本作為答案；生成式問答 (Generative QA) 則像人類一樣，理解問題和上下文後，生成一個新的、自然的回答，答案可能不直接出現在原文中。
按對話輪數：單輪問答 處理獨立的問題；多輪問答 需要考慮對話歷史。
按知識範圍：封閉領域問答 針對特定領域（如產品手冊）；開放領域問答 可以回答關於任何主題的問題，通常需要大規模知識庫或網路搜索。

選項 B 是根據回答的產生方式進行的分類。

#25

★★

F1-score 是評估分類模型常用的指標，它是什麼的調和平均數？

準確率 (Accuracy) 和召回率 (Recall)

精確率 (Precision) 和召回率 (Recall)

真陽性率 (True Positive Rate) 和假陽性率 (False Positive Rate)

精確率 (Precision) 和準確率 (Accuracy)

答案解析

F1-score（或 F1 measure）是精確率 (Precision) 和召回率 (Recall) 的調和平均數 (Harmonic Mean)。計算公式為：F1 = 2 * (Precision * Recall) / (Precision + Recall)。使用調和平均數是因為它會給予較低值更大的權重，只有當 Precision 和 Recall 都比較高時，F1-score 才會高。這使得 F1-score 在需要平衡 Precision 和 Recall 的場景下（例如，不希望漏掉太多正例，也不希望誤判太多負例為正例）是一個比準確率更可靠的指標，尤其是在數據不平衡的情況下。

#26

★★★

為什麼在進行 NLP 任務前通常需要將文本轉換為小寫 (Lowercasing)？

提高模型的可解釋性

將相同詞語的不同寫法（如 "Apple" 和 "apple"）視為同一個詞符，減少詞彙量

增加文本的長度

保留詞語的大小寫資訊以區分專有名詞

答案解析

將文本全部轉換為小寫是一種常見的文本正規化 (Normalization) 手段。主要目的是為了詞彙歸一化。如果不轉換，模型可能會將句首大寫的 "Apple" 和句中小寫的 "apple" 視為兩個不同的詞符 (tokens)，這會不必要地增加詞彙表的大小，並可能導致數據稀疏問題（某些形式出現次數很少）。轉換為小寫可以確保同一個詞語的不同大小寫形式被映射到同一個詞符，有助於模型更好地學習詞語的統計特性。然而，需要注意的是，在某些任務中（如命名實體識別），大小寫資訊可能是有用的，此時可能不進行小寫轉換或採用更複雜的處理方式。

#27

★★

One-hot encoding 在表示詞語時的主要問題是什麼？

無法表示詞語在句子中的位置

計算速度非常慢

向量維度等於詞彙表大小，導致維度過高且無法捕捉詞語間的語意關係

只能用於表示數字

答案解析

One-hot encoding 將詞彙表中的每個詞語表示為一個長度等於詞彙表大小的向量，其中該詞語對應的索引位置為 1，其餘位置為 0。這種表示方法存在兩個主要問題：1. 高維稀疏：如果詞彙表很大（例如幾萬或幾十萬），每個詞的向量維度就會非常高，而且向量中絕大多數元素都是 0，非常稀疏。2. 無法表示語意關係：任意兩個不同詞語的 one-hot 向量都是正交的（它們的點積為 0），這意味著模型無法從這種表示中學習到詞語之間的相似性或關聯性（例如 "貓" 和 "狗" 的關係與 "貓" 和 "桌子" 的關係在向量層面沒有區別）。

#28

★★★★

情感分析 (Sentiment Analysis) 的主要目的是？

識別和提取文本中表達的主觀意見、情感、評價或態度的過程

將文本翻譯成不同的語言

自動生成文本摘要

標註文本中詞語的語法功能

答案解析

情感分析，也稱為意見探勘 (Opinion Mining)，是 NLP 中一個非常活躍的研究領域和應用方向。其核心目標是利用計算機技術自動分析文本，判斷其中所蘊含的情感色彩或主觀傾向。最常見的任務是將情感分類為正面 (Positive)、負面 (Negative) 或中性 (Neutral)。更細粒度的分析還可能涉及情感強度、特定方面（如產品的價格、服務）的情感以及情感的來源等。情感分析在輿情監控、產品評論分析、市場調查等領域有廣泛應用。

#29

★★★★

LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit) 是對標準 RNN 的改進，它們主要解決了 RNN 的哪個問題？

無法處理變長序列

計算成本過高

梯度消失/爆炸問題 (Vanishing/Exploding Gradient Problem)

無法進行平行計算

答案解析

標準 RNN 在通過時間反向傳播 (Backpropagation Through Time, BPTT) 訓練時，由於梯度在時間步上連乘，很容易出現梯度消失（梯度值趨近於 0，導致模型無法學習長期依賴）或梯度爆炸（梯度值指數級增長，導致訓練不穩定）的問題。LSTM 和 GRU 引入了門控機制 (Gating Mechanism)，如遺忘門 (Forget Gate)、輸入門 (Input Gate)、輸出門 (Output Gate)（LSTM）或重置門 (Reset Gate)、更新門 (Update Gate)（GRU）。這些門控單元可以有選擇地控制資訊的流動、記憶和遺忘，使得梯度能夠在更長的時間步上有效傳播，從而顯著緩解了梯度消失/爆炸問題，使模型能夠更好地捕捉序列中的長期依賴關係。

#30

★★★

機器翻譯 (Machine Translation, MT) 按照技術發展階段，主要經歷了哪些範式？

僅基於規則的機器翻譯

僅統計機器翻譯

僅神經機器翻譯

基於規則的機器翻譯 (RBMT)、統計機器翻譯 (SMT)、神經機器翻譯 (NMT)

答案解析

機器翻譯的發展歷程主要可以劃分為三個階段：

基於規則的機器翻譯 (Rule-Based Machine Translation, RBMT): 早期的方法，依賴語言學家手動編寫大量的雙語詞典和語法規則來進行翻譯。優點是語法相對準確，缺點是規則覆蓋有限、構建成本高、難以處理歧義和口語。
統計機器翻譯 (Statistical Machine Translation, SMT): 20 世紀 90 年代興起，利用大規模平行語料庫（成對的原文和譯文句子）學習翻譯模型（如詞對齊、短語翻譯機率）和語言模型。相比 RBMT 效果有顯著提升，但模型複雜，且難以處理長距離依賴。
神經機器翻譯 (Neural Machine Translation, NMT): 2014 年左右開始發展，使用深度神經網路（主要是基於 RNN 的 Encoder-Decoder 架構，後來被 Transformer 取代）直接學習從源語言到目標語言的端到端映射。NMT 在翻譯流暢度和準確度上取得了突破性進展，成為當前主流的機器翻譯範式。

#31

★★★

困惑度 (Perplexity) 是評估語言模型常用的指標，較低的困惑度通常表示什麼？

模型預測的文本更加隨機

模型對於測試文本的預測能力較好，能夠以較高的機率生成該文本

模型包含的參數數量較少

模型訓練所需的時間較短

答案解析

困惑度 (Perplexity, PPL) 是語言模型評估指標，它基於模型在測試集上分配的機率。具體來說，PPL 是測試集反向機率的幾何平均值的 2 的指數次方（或自然指數 e 的指數次方，取決於對數底）。直觀上，困惑度可以理解為模型在預測下一個詞時平均有多少種可能的選擇。困惑度越低，表示模型對測試集數據的擬合越好，也就是說模型賦予測試集中實際出現的詞序列更高的機率，表明模型學習到的語言模式更接近真實數據分佈，預測能力更強。

#32

★★★

遷移學習 (Transfer Learning) 在 NLP 領域的應用，例如使用預訓練語言模型 (Pre-trained Language Models)，主要帶來的好處是？

完全消除了對標註數據的需求

利用在大型通用數據集上學到的知識，提高在數據量較少的特定任務上的表現，並加速模型收斂

使得模型變得更小、更快

保證模型在所有任務上都能達到最佳效果

答案解析

遷移學習的核心思想是將在一個任務（源任務，Source Task）上學到的知識應用到另一個相關的任務（目標任務，Target Task）上。在 NLP 中，預訓練語言模型（如 BERT, GPT）就是在海量文本數據（源任務：學習通用語言表示）上進行預訓練，然後將學到的模型參數作為基礎，在特定的下游任務（目標任務：如文本分類、問答，通常標註數據較少）上進行微調 (Fine-tuning)。這樣做的好處包括：1. 利用通用知識：模型已經從大規模數據中學到了豐富的語法和語意知識。2. 改善少數據任務效能：即使目標任務的標註數據很少，也能取得較好的效果。3. 加速收斂：微調通常比從頭開始訓練更快收斂。雖然預訓練模型通常很大，但遷移學習本身旨在提高效能和效率，尤其是在目標任務數據有限的情況下。

#33

★★★

歧義 (Ambiguity) 是自然語言處理中的一個主要挑戰，以下哪項是詞彙歧義 (Lexical Ambiguity) 的例子？

單字 "bank" 可以指銀行，也可以指河岸

句子 "I saw a man with a telescope" 可以理解為「我用望遠鏡看到一個男人」或「我看到一個拿著望遠鏡的男人」

代名詞 "it" 指代不明

文本中出現拼寫錯誤

答案解析

自然語言充滿歧義，主要分為：

詞彙歧義 (Lexical Ambiguity): 同一個詞語有多種不同的含義。例如 "bank"（銀行/河岸）、"bat"（蝙蝠/球棒）、中文的「意思」。選項 A 是典型的詞彙歧義。
句法歧義 (Syntactic Ambiguity): 同一個句子可以有多種不同的語法結構。例如選項 B，介詞短語 "with a telescope" 可以修飾動詞 "saw"，也可以修飾名詞 "man"。
語意歧義 (Semantic Ambiguity): 句子結構清晰，但語意理解可以有多種。John and Mary are married"John 和 Mary 彼此結婚（他們是夫妻）John 和 Mary 各自都已婚（但不一定是彼此的配偶）
語用歧義 (Pragmatic Ambiguity): 語言的理解依賴於上下文或說話者的意圖。例如，反諷。

選項 C 是指代消解 (Anaphora Resolution) 問題，也與語用或上下文相關。選項 D 是拼寫錯誤，不屬於歧義。

#34

★★

移除 HTML 標籤是文本前處理中的哪個步驟？

斷詞 (Tokenization)

文本清洗 (Text Cleaning)

詞形還原 (Lemmatization)

停用詞移除 (Stop Word Removal)

答案解析

文本清洗是文本前處理的一個重要環節，旨在移除文本中與分析目標無關或可能產生干擾的「雜訊」。這些雜訊可能包括 HTML 標籤（如 `

`, ``）、特殊字元、網址 (URLs)、表情符號、多餘的空格或換行符等。移除 HTML 標籤通常在處理從網頁爬取的文本時非常必要，以提取純淨的文本內容進行後續分析。

#35

★★

共指消解 (Coreference Resolution) 的任務目標是？

判斷文本的情感極性

分析句子中詞語的依賴關係

識別文本中指向同一個真實世界實體的所有表述（如代名詞、名詞短語）並將它們連結起來

將文本劃分為句子

答案解析

共指消解旨在找出文本中所有指代同一個實體 (entity) 的詞語或短語（稱為 mentions），並將它們歸類到同一個集合（稱為 coreference chain）。例如，在句子 "張三是一位工程師。他很喜歡寫程式。" 中，"張三" 和 "他" 都指向同一個人物。共指消解對於理解文本連貫性、資訊提取、問答系統等至關重要，因為它能幫助系統追蹤文本中實體的提及情況。指代消解 (Anaphora Resolution) 範圍較窄：專門處理前指關係，即後面的詞語指向前面已出現的實體。特點：方向性：只處理「向前指」的關係. 典型例子：代名詞指向前文的名詞共指消解 (Coreference Resolution) 範圍較廣：處理文本中所有指向同一實體的詞語，不限方向。特點：無方向性：可以是前指、後指、或並列關係, 包含指代消解：Anaphora Resolution 是其子集

評估一個句子或詞序列的自然程度（可能性）或生成新的文本

資料庫管理

異常偵測

答案解析

語言模型 (Language Model, LM) 的核心是學習自然語言中詞語序列的機率分佈 P(w1, w2, ..., wn)。基於這個機率分佈，語言模型可以有兩大主要應用：1. 評估序列機率：給定一個句子，模型可以計算出該句子出現的可能性。機率越高的句子通常被認為越自然、越符合語法。這可用於拼寫檢查、語音辨識的後處理等。2. 生成文本：根據已有的詞語序列，預測下一個最可能出現的詞語，從而可以逐詞生成新的文本。這是機器翻譯、對話系統、文本摘要等生成式任務的基礎。

#37

★★★★

資訊檢索 (Information Retrieval, IR) 系統（如搜尋引擎）如何利用 NLP 技術？

僅用於顯示搜尋結果頁面

僅用於計算網頁的載入速度

理解使用者查詢的意圖、處理查詢擴展、對文檔進行索引和排序

僅用於過濾垃圾郵件

答案解析

NLP 技術在現代資訊檢索系統中扮演著關鍵角色：

查詢理解 (Query Understanding): 分析使用者輸入的查詢，識別關鍵詞、實體、意圖，處理歧義（如 "apple" 是指水果還是公司？）。
查詢擴展 (Query Expansion): 將原始查詢擴展為相關的詞語或同義詞，以召回更多相關文檔（如搜 "筆記型電腦" 時也返回包含 "laptop" 的結果）。
文檔處理與索引 (Document Processing & Indexing): 對網頁或文檔進行斷詞、詞幹提取/詞形還原、去除停用詞等前處理，並使用 TF-IDF 或更先進的向量表示（如 BM25, 詞嵌入）建立索引，以便快速查找。
相關性排序 (Relevance Ranking): 計算查詢和文檔之間的相關性分數，並根據相關性對搜尋結果進行排序。現代搜尋引擎常使用基於深度學習的排序模型（Learning to Rank, LTR），這些模型深度融合了 NLP 特徵。