標題與關鍵詞(進階):為檢索演算法與 LLM 而寫
從 BM25 詞彙檢索、語意嵌入到 LLM 文獻抽取,把標題與關鍵詞當成一段對抗排序演算法的查詢最佳化字串來設計
為什麼兩篇主題幾乎相同的論文,一篇被引爆、一篇被埋沒?
你已經知道標題要清楚、關鍵詞要對應檢索詞。但這裡有一個更尖銳的問題:當你的領域裡有 200 篇研究同一個現象的論文,演算法憑什麼把你的那篇推到審稿人、讀者、甚至大型語言模型(large language models, LLM)的眼前?
答案藏在一個你入門時很少被告知的事實裡——標題與關鍵詞不只是給人讀的,更是給「檢索系統」吃的。現代學術發現流程已經高度機器中介(machine-mediated):Google Scholar 的排序、Scopus 的相似度比對、Semantic Scholar 的引用預測、以及越來越多研究者用 ChatGPT 或 Elicit 做文獻初篩。你的標題與關鍵詞,本質上是一段對抗排序演算法的查詢最佳化(query optimization)字串。這一篇,我們就從「人讀」跨到「機器讀」,談標題與關鍵詞背後的檢索機制、語意嵌入(semantic embedding)、與一場正在發生的範式轉移。

機制一:詞頻、欄位加權與你看不見的排序公式
入門篇告訴你「把關鍵詞放進標題」。進階的問題是:為什麼有效?放幾次有效?放錯位置會怎樣?
傳統檢索引擎的核心是 TF-IDF 與其後繼者 BM25 排序函數。粗略地說,一個詞對某篇文獻的「相關分數」取決於三件事:這個詞在該文獻出現的頻率(term frequency, TF)、這個詞在整個資料庫有多罕見(inverse document frequency, IDF)、以及它出現在哪個欄位。學術資料庫對欄位有差異化加權(field weighting):標題 > 關鍵詞 > 摘要 > 全文。標題裡的一個詞,權重可能是全文同一個詞的 5 到 10 倍。
這解釋了入門篇的建議,但也揭露了它的邊界:
- 罕見詞 vs 常見詞的不對稱:IDF 機制下,越罕見的詞區辨力越強。把
machine learning放進標題,幾乎等於沒放——因為十萬篇都有它,IDF 趨近於零。真正拉高你排序的是那個只有少數論文用的具體術語。 - 過度堆疊會觸發飽和(saturation):BM25 對 TF 做了對數壓縮,同一個詞在標題重複三次,第三次的邊際貢獻趨近於零,反而讓標題讀起來像關鍵詞填塞(keyword stuffing),人類審稿人會反感。
看一個例子
假設你研究的是「以心率變異性預測大學生線上學習的認知負荷」。
不佳(常見詞主導,區辨力低):
A Study on Machine Learning for Student Learning in Online Education
machine learning、student learning、online education 三個詞 IDF 都極低,這個標題在檢索空間裡幾乎「隱形」。
改良(嵌入高 IDF 的具體術語):
Predicting Cognitive Load from Heart Rate Variability During Online Learning: A Multimodal Approach
cognitive load、heart rate variability、multimodal 都是中高 IDF 詞。它們不只描述你的研究,更是把你精準投放到正在搜尋這些術語的少數讀者面前。注意這裡沒有一次重複任何詞——每個詞都在做檢索上的「不同工」。
一個可操作的檢驗法:把你標題裡每個實詞,逐一丟進 Google Scholar,看回傳幾萬筆。回傳數百萬筆的詞,是在浪費你的標題預算;至少要有兩到三個詞能把結果壓到幾千筆以內。
機制二:從關鍵字比對到語意嵌入——檢索的範式已經換了
上面講的 BM25 是詞彙式檢索(lexical retrieval)——它比對的是「字面」。但 2020 年後,整個學術檢索基礎設施正在被語意檢索(semantic / dense retrieval)重寫。Semantic Scholar、Elicit、以及任何接了向量資料庫的 LLM 工具,都不再單純比對字串,而是把你的標題與摘要編碼成一個高維向量(embedding),再用餘弦相似度(cosine similarity)找「意思相近」的文獻。
這帶來一個違反直覺的後果:同義詞與上下文,在語意檢索裡突然變得很重要。
在純詞彙式時代,使用者搜 faculty wellbeing,你標題寫 professor mental health,兩者字面不重疊,你就被漏掉。但在語意檢索裡,這兩個短語的向量很接近,你仍可能被召回。然而——這不代表你可以隨便寫。語意模型對「概念清晰、術語標準」的文本嵌得更準。一個術語混亂、自創縮寫滿天飛的標題,會落在向量空間的模糊地帶,誰都搜不到。
動手試試:為「人讀」與「機器讀」分層設計關鍵詞
下次投稿,試著把你的 5 個關鍵詞刻意分成三層,而不是隨手填五個近義詞:
- 領域定位層(1–2 個):讓檢索系統知道你屬於哪個大領域。如
educational data mining、learning analytics。這些 IDF 低,但負責「分類」。 - 核心方法/現象層(2 個):你研究的具體對象,高區辨力。如
cognitive load、physiological sensing。 - 橋接/同義層(1 個):刻意放一個與標題用詞不同但同義的詞,覆蓋語意檢索與不同社群的用語習慣。如標題用
heart rate variability,關鍵詞補一個autonomic arousal。
不佳(五個詞全在同一層,互相重疊):
Keywords: online learning, e-learning, distance learning, remote education, virtual classroom
這五個詞語意幾乎是同一個點,在向量空間裡擠成一團,白白浪費了四個關鍵詞名額,完全沒擴展你的可發現性。
改良(三層分工,向量空間鋪得開):
Keywords: learning analytics, cognitive load, heart rate variability, multimodal sensing, autonomic arousal
機制三:標題的句法結構會影響「可解析性」
進階寫作者要意識到:標題不只是詞袋(bag of words),它的句法結構也被機器與人同時解析。三種主流結構各有檢索與認知後果:
- 宣稱式(declarative / findings title):直接寫出結論。
Sleep Deprivation Impairs Working Memory in Adolescents。優點是資訊密度高、在 LLM 摘要時容易被正確抽取主張;缺點是若結論被後續研究推翻,標題會顯得武斷。近年 BJET、C&E 等期刊越來越接受這種標題。 - 描述式(descriptive title):描述做了什麼但不下結論。
The Effect of Sleep Deprivation on Working Memory: A Longitudinal Study。最安全、最常見,但資訊密度較低。 - 疑問式(question title):
Does Sleep Deprivation Impair Working Memory?。吸睛、適合爭議性主題,但檢索上略吃虧——疑問句把核心名詞推到後面,且部分老式系統對問號處理不一。
一個常被忽略的細節:冒號結構(colon title)的前後分工。冒號前該放「吸睛/主題」,冒號後放「方法/範圍」,而不是相反。
不佳(吸睛短語在後,前半是空洞大詞):
An Investigation into Educational Technology: Gamified Vocabulary Learning in EFL Classrooms
冒號前 An Investigation into Educational Technology 幾乎零資訊,卻佔據了讀者第一眼與部分檢索系統截斷顯示的黃金位置。
改良(具體主題在前,方法範圍在後):
Gamified Vocabulary Learning in EFL Classrooms: A Quasi-Experimental Study
機制四:為「被 LLM 引用」而寫——新興的可發現性前線
這是入門篇不會碰、但 2024 年後越來越關鍵的面向。當研究者用 ChatGPT、Claude、Elicit、Consensus 做文獻探勘時,你的論文能否被正確檢索、正確歸納、正確引用,取決於你的標題與摘要是否「對 LLM 友善」。
關鍵原則:LLM 抽取主張時,依賴標題與摘要前兩句的明確性。一個把核心發現、研究對象、方法都清楚命名的標題,會被 LLM 正確地與某個主張綁定;一個用隱喻、雙關、或自創縮寫的「文青標題」,會讓模型抽不出結構化資訊,甚至產生幻覺(hallucination)式的錯誤歸因。
不佳(隱喻標題,機器難解析):
When the Lights Go Out: Rethinking Assessment in the Age of AI
人類覺得有韻味,但 lights go out 是什麼?rethinking 重新想了什麼結論?LLM 無法從標題抽出任何可驗證主張,這篇在 AI 中介的文獻流裡會被邊緣化。
改良(保留一點吸引力,但主張可解析):
Generative AI Undermines Traditional Take-Home Assessment: Evidence from 12 University Courses
它仍有張力(undermines),但研究對象(take-home assessment)、因素(generative AI)、證據規模(12 university courses)全部可被機器抽取並正確引用。這不是要你放棄文采,而是要你理解:文采若以犧牲可解析性為代價,在今天的代價比五年前高得多。
重點回顧
- 標題與關鍵詞是查詢最佳化字串:它們同時服務人類讀者與 BM25 詞彙檢索、語意向量檢索、LLM 文獻抽取三套機器系統,設計時要分層思考。
- IDF 決定一個詞值不值得放進標題:常見大詞(
machine learning)區辨力趨近於零,真正拉高排序的是中高 IDF 的具體術語;用 Google Scholar 回傳筆數自我檢驗。 - 關鍵詞應分三層:領域定位、核心方法/現象、橋接同義詞,避免五個近義詞擠在向量空間同一點。
- 句法結構有後果:冒號前放具體主題、冒號後放方法範圍;宣稱式標題資訊密度高但需有把握。
- 為 LLM 可解析性而寫:標題要能讓機器抽出「研究對象+因素+發現」,隱喻式標題在 AI 中介的發現流裡正快速失去優勢。
深入探討(研究所視角)
若你想把這套理解推到研究前沿,有三條值得深挖的線。
第一,密集檢索的雙編碼器架構(dual-encoder / bi-encoder)與其偏誤。 現代語意檢索多採用如 SPECTER、SciNCL 這類專為學術文獻訓練的句子嵌入模型——它們把標題+摘要編碼成單一向量,並以「被共同引用的論文應該相近」作為訓練訊號(citation-based contrastive learning)。這帶來一個值得警惕的結構性偏誤:嵌入空間繼承了既有引用網路的馬太效應(Matthew effect)。新興、跨領域、或用語尚未標準化的研究,其向量容易落在稀疏地帶而被系統性低估。理解這點,你會明白為何「橋接同義詞」與「明確的領域定位詞」對非主流研究尤其重要——它們是把自己錨定回稠密區的繩索。
第二,標題的資訊理論視角。 可以把標題看成一個容量極有限(約 12–15 字)的通道(channel),你的任務是在這個通道裡最大化「互資訊(mutual information)」——即讀者看到標題後,對論文內容不確定性的下降量。常見大詞貢獻的互資訊低(因為先驗機率高),罕見的精準術語貢獻高。這給了「不佳 vs 改良」一個量化基礎:好標題不是「塞最多詞」,而是「每個字的位元效率(bits per word)最高」。一個延伸的研究題目是:能否用語言模型的困惑度(perplexity)或詞彙意外性(lexical surprisal)來自動評分標題的資訊效率?
第三,可發現性與可複現性的張力,以及一個倫理紅線。 為機器最佳化標題,距離「為點擊最佳化」只有一線之隔。學界已觀察到標題正向化偏誤(positive-result framing)——宣稱式、強結論的標題引用數較高,這可能反過來誘導研究者誇大標題主張,加劇發表偏誤(publication bias)。一個負責任的進階寫作者,應把「可發現性最佳化」嚴格限定在不扭曲研究主張的範圍內:你可以為了被搜到而選用標準術語、為了被正確引用而讓主張可解析,但不可以為了排名而把「相關」寫成「導致」、把「在 12 門課的初步證據」寫成「普遍規律」。檢索系統會獎勵強標題,但科學社群(與你未來的學術信譽)會記住那些言過其實的承諾。在 Uedu 的學術倫理框架(Ethicomics)裡,這正是「可信賴性」原則落到寫作層次的具體要求——讓論文被找到,但永遠不靠欺騙被找到。