標題與關鍵詞（進階）：為檢索演算法與 LLM 而寫

從 BM25 詞彙檢索、語意嵌入到 LLM 文獻抽取，把標題與關鍵詞當成一段對抗排序演算法的查詢最佳化字串來設計

進階 · 約 13 分鐘 ·#學術寫作#標題與關鍵詞#論文檢索#語意嵌入#研究發現

為什麼兩篇主題幾乎相同的論文，一篇被引爆、一篇被埋沒？

你已經知道標題要清楚、關鍵詞要對應檢索詞。但這裡有一個更尖銳的問題：當你的領域裡有 200 篇研究同一個現象的論文，演算法憑什麼把你的那篇推到審稿人、讀者、甚至大型語言模型（large language models, LLM）的眼前？

答案藏在一個你入門時很少被告知的事實裡——標題與關鍵詞不只是給人讀的，更是給「檢索系統」吃的。現代學術發現流程已經高度機器中介（machine-mediated）：Google Scholar 的排序、Scopus 的相似度比對、Semantic Scholar 的引用預測、以及越來越多研究者用 ChatGPT 或 Elicit 做文獻初篩。你的標題與關鍵詞，本質上是一段對抗排序演算法的查詢最佳化（query optimization）字串。這一篇，我們就從「人讀」跨到「機器讀」，談標題與關鍵詞背後的檢索機制、語意嵌入（semantic embedding）、與一場正在發生的範式轉移。

標題與關鍵詞進階概念示意圖

機制一：詞頻、欄位加權與你看不見的排序公式

入門篇告訴你「把關鍵詞放進標題」。進階的問題是：為什麼有效？放幾次有效？放錯位置會怎樣？

傳統檢索引擎的核心是 TF-IDF 與其後繼者 BM25 排序函數。粗略地說，一個詞對某篇文獻的「相關分數」取決於三件事：這個詞在該文獻出現的頻率（term frequency, TF）、這個詞在整個資料庫有多罕見（inverse document frequency, IDF）、以及它出現在哪個欄位。學術資料庫對欄位有差異化加權（field weighting）：標題 > 關鍵詞 > 摘要 > 全文。標題裡的一個詞，權重可能是全文同一個詞的 5 到 10 倍。

這解釋了入門篇的建議，但也揭露了它的邊界：

罕見詞 vs 常見詞的不對稱：IDF 機制下，越罕見的詞區辨力越強。把 machine learning 放進標題，幾乎等於沒放——因為十萬篇都有它，IDF 趨近於零。真正拉高你排序的是那個只有少數論文用的具體術語。
過度堆疊會觸發飽和（saturation）：BM25 對 TF 做了對數壓縮，同一個詞在標題重複三次，第三次的邊際貢獻趨近於零，反而讓標題讀起來像關鍵詞填塞（keyword stuffing），人類審稿人會反感。

看一個例子

假設你研究的是「以心率變異性預測大學生線上學習的認知負荷」。

不佳（常見詞主導，區辨力低）：

A Study on Machine Learning for Student Learning in Online Education

machine learning、student learning、online education 三個詞 IDF 都極低，這個標題在檢索空間裡幾乎「隱形」。

改良（嵌入高 IDF 的具體術語）：

Predicting Cognitive Load from Heart Rate Variability During Online Learning: A Multimodal Approach

cognitive load、heart rate variability、multimodal 都是中高 IDF 詞。它們不只描述你的研究，更是把你精準投放到正在搜尋這些術語的少數讀者面前。注意這裡沒有一次重複任何詞——每個詞都在做檢索上的「不同工」。

一個可操作的檢驗法：把你標題裡每個實詞，逐一丟進 Google Scholar，看回傳幾萬筆。回傳數百萬筆的詞，是在浪費你的標題預算；至少要有兩到三個詞能把結果壓到幾千筆以內。

機制二：從關鍵字比對到語意嵌入——檢索的範式已經換了

上面講的 BM25 是詞彙式檢索（lexical retrieval）——它比對的是「字面」。但 2020 年後，整個學術檢索基礎設施正在被語意檢索（semantic / dense retrieval）重寫。Semantic Scholar、Elicit、以及任何接了向量資料庫的 LLM 工具，都不再單純比對字串，而是把你的標題與摘要編碼成一個高維向量（embedding），再用餘弦相似度（cosine similarity）找「意思相近」的文獻。

這帶來一個違反直覺的後果：同義詞與上下文，在語意檢索裡突然變得很重要。

在純詞彙式時代，使用者搜 faculty wellbeing，你標題寫 professor mental health，兩者字面不重疊，你就被漏掉。但在語意檢索裡，這兩個短語的向量很接近，你仍可能被召回。然而——這不代表你可以隨便寫。語意模型對「概念清晰、術語標準」的文本嵌得更準。一個術語混亂、自創縮寫滿天飛的標題，會落在向量空間的模糊地帶，誰都搜不到。

動手試試：為「人讀」與「機器讀」分層設計關鍵詞

下次投稿，試著把你的 5 個關鍵詞刻意分成三層，而不是隨手填五個近義詞：

領域定位層（1–2 個）：讓檢索系統知道你屬於哪個大領域。如 educational data mining、learning analytics。這些 IDF 低，但負責「分類」。
核心方法／現象層（2 個）：你研究的具體對象，高區辨力。如 cognitive load、physiological sensing。
橋接／同義層（1 個）：刻意放一個與標題用詞不同但同義的詞，覆蓋語意檢索與不同社群的用語習慣。如標題用 heart rate variability，關鍵詞補一個 autonomic arousal。

不佳（五個詞全在同一層，互相重疊）：

Keywords: online learning, e-learning, distance learning, remote education, virtual classroom

這五個詞語意幾乎是同一個點，在向量空間裡擠成一團，白白浪費了四個關鍵詞名額，完全沒擴展你的可發現性。

改良（三層分工，向量空間鋪得開）：

Keywords: learning analytics, cognitive load, heart rate variability, multimodal sensing, autonomic arousal

機制三：標題的句法結構會影響「可解析性」

進階寫作者要意識到：標題不只是詞袋（bag of words），它的句法結構也被機器與人同時解析。三種主流結構各有檢索與認知後果：

宣稱式（declarative / findings title）：直接寫出結論。Sleep Deprivation Impairs Working Memory in Adolescents。優點是資訊密度高、在 LLM 摘要時容易被正確抽取主張；缺點是若結論被後續研究推翻，標題會顯得武斷。近年 BJET、C&E 等期刊越來越接受這種標題。
描述式（descriptive title）：描述做了什麼但不下結論。The Effect of Sleep Deprivation on Working Memory: A Longitudinal Study。最安全、最常見，但資訊密度較低。
疑問式（question title）：Does Sleep Deprivation Impair Working Memory?。吸睛、適合爭議性主題，但檢索上略吃虧——疑問句把核心名詞推到後面，且部分老式系統對問號處理不一。

一個常被忽略的細節：冒號結構（colon title）的前後分工。冒號前該放「吸睛／主題」，冒號後放「方法／範圍」，而不是相反。

不佳（吸睛短語在後，前半是空洞大詞）：

An Investigation into Educational Technology: Gamified Vocabulary Learning in EFL Classrooms

冒號前 An Investigation into Educational Technology 幾乎零資訊，卻佔據了讀者第一眼與部分檢索系統截斷顯示的黃金位置。

改良（具體主題在前，方法範圍在後）：

Gamified Vocabulary Learning in EFL Classrooms: A Quasi-Experimental Study

機制四：為「被 LLM 引用」而寫——新興的可發現性前線

這是入門篇不會碰、但 2024 年後越來越關鍵的面向。當研究者用 ChatGPT、Claude、Elicit、Consensus 做文獻探勘時，你的論文能否被正確檢索、正確歸納、正確引用，取決於你的標題與摘要是否「對 LLM 友善」。

關鍵原則：LLM 抽取主張時，依賴標題與摘要前兩句的明確性。一個把核心發現、研究對象、方法都清楚命名的標題，會被 LLM 正確地與某個主張綁定；一個用隱喻、雙關、或自創縮寫的「文青標題」，會讓模型抽不出結構化資訊，甚至產生幻覺（hallucination）式的錯誤歸因。

不佳（隱喻標題，機器難解析）：

When the Lights Go Out: Rethinking Assessment in the Age of AI

人類覺得有韻味，但 lights go out 是什麼？rethinking 重新想了什麼結論？LLM 無法從標題抽出任何可驗證主張，這篇在 AI 中介的文獻流裡會被邊緣化。

改良（保留一點吸引力，但主張可解析）：

Generative AI Undermines Traditional Take-Home Assessment: Evidence from 12 University Courses

它仍有張力（undermines），但研究對象（take-home assessment）、因素（generative AI）、證據規模（12 university courses）全部可被機器抽取並正確引用。這不是要你放棄文采，而是要你理解：文采若以犧牲可解析性為代價，在今天的代價比五年前高得多。

重點回顧

標題與關鍵詞是查詢最佳化字串：它們同時服務人類讀者與 BM25 詞彙檢索、語意向量檢索、LLM 文獻抽取三套機器系統，設計時要分層思考。
IDF 決定一個詞值不值得放進標題：常見大詞（machine learning）區辨力趨近於零，真正拉高排序的是中高 IDF 的具體術語；用 Google Scholar 回傳筆數自我檢驗。
關鍵詞應分三層：領域定位、核心方法／現象、橋接同義詞，避免五個近義詞擠在向量空間同一點。
句法結構有後果：冒號前放具體主題、冒號後放方法範圍；宣稱式標題資訊密度高但需有把握。
為 LLM 可解析性而寫：標題要能讓機器抽出「研究對象＋因素＋發現」，隱喻式標題在 AI 中介的發現流裡正快速失去優勢。

深入探討（研究所視角）

若你想把這套理解推到研究前沿，有三條值得深挖的線。

第一，密集檢索的雙編碼器架構（dual-encoder / bi-encoder）與其偏誤。 現代語意檢索多採用如 SPECTER、SciNCL 這類專為學術文獻訓練的句子嵌入模型——它們把標題＋摘要編碼成單一向量，並以「被共同引用的論文應該相近」作為訓練訊號（citation-based contrastive learning）。這帶來一個值得警惕的結構性偏誤：嵌入空間繼承了既有引用網路的馬太效應（Matthew effect）。新興、跨領域、或用語尚未標準化的研究，其向量容易落在稀疏地帶而被系統性低估。理解這點，你會明白為何「橋接同義詞」與「明確的領域定位詞」對非主流研究尤其重要——它們是把自己錨定回稠密區的繩索。

第二，標題的資訊理論視角。 可以把標題看成一個容量極有限（約 12–15 字）的通道（channel），你的任務是在這個通道裡最大化「互資訊（mutual information）」——即讀者看到標題後，對論文內容不確定性的下降量。常見大詞貢獻的互資訊低（因為先驗機率高），罕見的精準術語貢獻高。這給了「不佳 vs 改良」一個量化基礎：好標題不是「塞最多詞」，而是「每個字的位元效率（bits per word）最高」。一個延伸的研究題目是：能否用語言模型的困惑度（perplexity）或詞彙意外性（lexical surprisal）來自動評分標題的資訊效率？

第三，可發現性與可複現性的張力，以及一個倫理紅線。 為機器最佳化標題，距離「為點擊最佳化」只有一線之隔。學界已觀察到標題正向化偏誤（positive-result framing）——宣稱式、強結論的標題引用數較高，這可能反過來誘導研究者誇大標題主張，加劇發表偏誤（publication bias）。一個負責任的進階寫作者，應把「可發現性最佳化」嚴格限定在不扭曲研究主張的範圍內：你可以為了被搜到而選用標準術語、為了被正確引用而讓主張可解析，但不可以為了排名而把「相關」寫成「導致」、把「在 12 門課的初步證據」寫成「普遍規律」。檢索系統會獎勵強標題，但科學社群（與你未來的學術信譽）會記住那些言過其實的承諾。在 Uedu 的學術倫理框架（Ethicomics）裡，這正是「可信賴性」原則落到寫作層次的具體要求——讓論文被找到，但永遠不靠欺騙被找到。

← 上一篇

標題與關鍵詞：讓論文被搜尋到，也被讀

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定