🔄 Pointwise vs Pairwise：搜索引擎史上最激烈的算法哲学大战！

November 25, 2018 · 23 min read

郭流芳

资深算法工程师

🔍

⚖️

搜索算法的哲学分歧

绝对评分 vs 相对比较，谁才是信息检索的终极真理？

🕰️ 时空定位：1998年Google诞生，信息检索的大分裂时代

💥 历史现场：互联网信息爆炸的绝望时刻

时间：1998年9月，互联网的野蛮生长期
地点：斯坦福大学计算机科学系，Page和Brin的实验室
关键事件：Google搜索引擎问世，传统信息检索体系崩塌
历史背景：从千万网页到数十亿网页，人工分类彻底失效

🚨 信息危机

📊 1998年的搜索引擎困境

传统搜索系统面临的三重死局：

🌐 规模爆炸：网页数量从100万暴增到10亿，增长1000倍
⏱️ 实时需求：用户期望0.1秒内得到结果，传统算法需要几分钟
🎯 相关性噩梦：关键词匹配返回百万结果，用户只看前10个
💸 计算成本：每次搜索耗费服务器资源超过当时个人电脑性能

斯坦福研究团队的历史性难题： "如何在数十亿网页中，找到用户真正想要的那一个？这不是技术问题，这是哲学问题！"

🧬 两大阵营的根本分歧

🎯 绝对主义

Pointwise：独立评分哲学

核心信念：每个文档都有绝对的相关性分数

方法论：query-document独立打分，排序只是副产品

优势：简单直观，易于理解和实现

代表算法：TF-IDF、BM25、回归模型

⚖️ 相对主义

Pairwise：比较优势哲学

核心信念：相关性是相对的，只有比较才有意义

方法论：学习文档对的偏序关系，排序是本质

优势：直接优化排序，符合搜索本质

代表算法：RankNet、RankSVM、LambdaRank

⚔️ 算法大战：1998-2010年的搜索引擎军备竞赛

🏛️ 第一阶段：Pointwise的黄金时代（1998-2003）

🎯 Pointwise称霸的黄金五年

🏆 技术优势

实现简单：线性模型，快速部署
计算高效：O(n)复杂度，适合大规模
可解释强：特征权重直观明确
稳定可靠：数学基础坚实

📈 商业成功

Google PageRank：单文档权威度评分
Yahoo搜索：TF-IDF相关性评分
MSN搜索：基于内容的独立打分
学术界主流：TREC竞赛标准方法

时代标志：Google凭借PageRank的Pointwise思想，占领全球搜索市场70%份额

📊 第二阶段：Pairwise的逆袭崛起（2004-2008）

Microsoft Research的反击：

🌊 Pairwise革命的三大突破

🧠 RankNet (2005)

创新：神经网络学习排序
突破：端到端优化排序损失
影响：开启深度学习排序时代

⚡ RankSVM (2006)

创新：支持向量机排序
突破：大间隔排序理论
影响：理论与实践完美结合

🚀 LambdaRank (2007)

创新：直接优化NDCG指标
突破：解决排序评估难题
影响：成为工业界标准

📊 实验数据：Pairwise的压倒性优势

NDCG@10提升：15-25%
点击率提升：8-12%
用户满意度：显著提升

商业价值：广告收入增长20%
竞争优势：搜索质量领先
技术壁垒：算法复杂度高

🏆 第三阶段：深度学习时代的融合（2009-2025）

🎯 2009-2012：深度学习排序的探索期

DeepRank：深度神经网络排序
多层特征学习：从手工特征到自动特征
端到端训练：整个pipeline联合优化

⚡ 2013-2016：大规模工业化应用

Google RankBrain：AI驱动的搜索排序
Microsoft Bing：LambdaMART大规模部署
Yahoo Learning to Rank：开源数据集推动

🔬 2017-2020：注意力机制革命

BERT for Ranking：预训练模型排序
双塔模型：召回与排序统一框架
多模态融合：文本+图像+视频排序

💻 2021-2025：Transformer统治时代

GPT系列：生成式排序
T5-based Ranking：序列到序列排序
大模型时代：零样本排序能力

💡 核心算法：两大范式的技术实现

🎯 Pointwise：独立评分的数学艺术

# ==========================================
# Pointwise排序：独立评分的经典实现
# ==========================================

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, accuracy_score
import warnings
warnings.filterwarnings('ignore')

class PointwiseRanker:
    """
    Pointwise排序算法的完整实现
    
    核心思想：为每个query-document对独立预测相关性分数
    历史意义：搜索引擎的第一代主流方法
    """
    
    def __init__(self, model_type='linear', **kwargs):
        self.model_type = model_type
        self.model = None
        self.feature_names = None
        
        # 根据模型类型初始化
        if model_type == 'linear':
            self.model = LinearRegression(**kwargs)
        elif model_type == 'logistic':
            self.model = LogisticRegression(**kwargs)
        elif model_type == 'random_forest':
            self.model = RandomForestRegressor(**kwargs)
        else:
            raise ValueError(f"不支持的模型类型: {model_type}")
    
    def extract_features(self, query, document):
        """
        提取query-document特征对
        
        经典特征包括：
        1. 文本匹配特征：TF-IDF相似度、BM25分数
        2. 查询特征：查询长度、查询频率
        3. 文档特征：文档长度、PageRank、权威度
        """
        features = {}
        
        # 基础文本统计特征
        query_terms = query.lower().split()
        doc_terms = document.lower().split()
        
        # 1. 匹配特征
        common_terms = set(query_terms) & set(doc_terms)
        features['exact_match_ratio'] = len(common_terms) / len(query_terms) if query_terms else 0
        features['query_coverage'] = len(common_terms) / len(set(query_terms)) if query_terms else 0
        features['doc_coverage'] = len(common_terms) / len(set(doc_terms)) if doc_terms else 0
        
        # 2. TF-IDF相似度（简化版）
        query_tf = {term: query_terms.count(term) for term in set(query_terms)}
        doc_tf = {term: doc_terms.count(term) for term in set(doc_terms)}
        
        cosine_sim = 0
        query_norm = sum(freq**2 for freq in query_tf.values()) ** 0.5
        doc_norm = sum(freq**2 for freq in doc_tf.values()) ** 0.5
        
        if query_norm > 0 and doc_norm > 0:
            dot_product = sum(query_tf.get(term, 0) * doc_tf.get(term, 0) 
                            for term in set(query_terms) | set(doc_terms))
            cosine_sim = dot_product / (query_norm * doc_norm)
        
        features['cosine_similarity'] = cosine_sim
        
        # 3. BM25分数（简化版）
        features['bm25_score'] = self._compute_bm25(query_terms, doc_terms)
        
        # 4. 长度特征
        features['query_length'] = len(query_terms)
        features['doc_length'] = len(doc_terms)
        features['length_ratio'] = len(doc_terms) / len(query_terms) if query_terms else 0
        
        # 5. 位置特征（简化：第一次匹配位置）
        first_match_pos = len(doc_terms)
        for i, term in enumerate(doc_terms):
            if term in query_terms:
                first_match_pos = i
                break
        features['first_match_position'] = first_match_pos / len(doc_terms) if doc_terms else 1
        
        return features
    
    def _compute_bm25(self, query_terms, doc_terms, k1=1.2, b=0.75):
        """
        计算BM25分数（简化版）
        """
        doc_len = len(doc_terms)
        avgdl = 50  # 假设平均文档长度
        
        score = 0
        for term in set(query_terms):
            tf = doc_terms.count(term)
            if tf > 0:
                idf = 1  # 简化：假设IDF为1
                score += idf * (tf * (k1 + 1)) / (tf + k1 * (1 - b + b * doc_len / avgdl))
        
        return score
    
    def prepare_training_data(self, training_data):
        """
        准备训练数据
        
        training_data格式：
        [
            {
                'query': 'machine learning',
                'document': 'introduction to machine learning algorithms',
                'relevance': 3  # 相关性标签：0-4
            },
            ...
        ]
        """
        features_list = []
        labels = []
        
        for item in training_data:
            features = self.extract_features(item['query'], item['document'])
            features_list.append(features)
            labels.append(item['relevance'])
        
        # 转换为DataFrame
        df_features = pd.DataFrame(features_list)
        self.feature_names = df_features.columns.tolist()
        
        return df_features.values, np.array(labels)
    
    def fit(self, training_data):
        """
        训练Pointwise排序模型
        """
        X, y = self.prepare_training_data(training_data)
        
        # 训练模型
        self.model.fit(X, y)
        
        # 计算训练误差
        y_pred = self.model.predict(X)
        
        if self.model_type == 'logistic':
            # 分类问题
            y_pred_class = (y_pred > 0.5).astype(int)
            train_accuracy = accuracy_score(y > 2, y_pred_class)  # 相关性>2认为相关
            print(f"训练准确率: {train_accuracy:.4f}")
        else:
            # 回归问题
            train_mse = mean_squared_error(y, y_pred)
            print(f"训练MSE: {train_mse:.4f}")
        
        return self
    
    def predict(self, query, documents):
        """
        预测文档相关性分数并排序
        """
        if self.model is None:
            raise ValueError("模型未训练，请先调用fit方法")
        
        # 提取特征
        features_list = []
        for doc in documents:
            features = self.extract_features(query, doc)
            features_list.append(features)
        
        df_features = pd.DataFrame(features_list)
        
        # 确保特征顺序一致
        df_features = df_features.reindex(columns=self.feature_names, fill_value=0)
        
        # 预测分数
        scores = self.model.predict(df_features.values)
        
        # 排序（分数越高越相关）
        ranked_indices = np.argsort(scores)[::-1]
        
        results = []
        for i, idx in enumerate(ranked_indices):
            results.append({
                'rank': i + 1,
                'document': documents[idx],
                'score': scores[idx],
                'features': dict(zip(self.feature_names, df_features.iloc[idx].values))
            })
        
        return results
    
    def get_feature_importance(self):
        """
        获取特征重要性
        """
        if self.model is None:
            raise ValueError("模型未训练")
        
        if hasattr(self.model, 'coef_'):
            # 线性模型
            importance = self.model.coef_
        elif hasattr(self.model, 'feature_importances_'):
            # 树模型
            importance = self.model.feature_importances_
        else:
            return None
        
        importance_dict = dict(zip(self.feature_names, importance))
        return sorted(importance_dict.items(), key=lambda x: abs(x[1]), reverse=True)

# ==========================================
# 经典TF-IDF + BM25实现
# ==========================================

class ClassicPointwiseRanker:
    """
    经典的TF-IDF + BM25排序器
    
    历史地位：Google早期搜索的核心算法
    """
    
    def __init__(self, k1=1.2, b=0.75):
        self.k1 = k1
        self.b = b
        self.vocab = set()
        self.idf_scores = {}
        self.avg_doc_length = 0
        
    def build_vocabulary(self, documents):
        """
        构建词汇表和IDF分数
        """
        all_terms = []
        doc_lengths = []
        
        for doc in documents:
            terms = doc.lower().split()
            all_terms.extend(terms)
            doc_lengths.append(len(terms))
            self.vocab.update(terms)
        
        self.avg_doc_length = np.mean(doc_lengths)
        
        # 计算IDF
        for term in self.vocab:
            doc_freq = sum(1 for doc in documents if term in doc.lower())
            self.idf_scores[term] = np.log((len(documents) + 1) / (doc_freq + 1))
    
    def compute_bm25_score(self, query, document):
        """
        计算BM25分数
        """
        query_terms = query.lower().split()
        doc_terms = document.lower().split()
        doc_length = len(doc_terms)
        
        score = 0
        for term in query_terms:
            if term in self.vocab:
                tf = doc_terms.count(term)
                idf = self.idf_scores.get(term, 0)
                
                numerator = tf * (self.k1 + 1)
                denominator = tf + self.k1 * (1 - self.b + self.b * doc_length / self.avg_doc_length)
                
                score += idf * numerator / denominator
        
        return score
    
    def rank_documents(self, query, documents):
        """
        使用BM25对文档排序
        """
        scores = [(i, self.compute_bm25_score(query, doc)) 
                 for i, doc in enumerate(documents)]
        
        # 按分数降序排序
        scores.sort(key=lambda x: x[1], reverse=True)
        
        results = []
        for rank, (doc_idx, score) in enumerate(scores):
            results.append({
                'rank': rank + 1,
                'document': documents[doc_idx],
                'bm25_score': score
            })
        
        return results

# ==========================================
# 使用示例：重现早期搜索引擎
# ==========================================

def demonstrate_pointwise():
    """
    演示Pointwise排序的威力
    """
    # 模拟搜索数据
    training_data = [
        {'query': 'machine learning', 'document': 'Introduction to Machine Learning Algorithms', 'relevance': 4},
        {'query': 'machine learning', 'document': 'Deep Learning and Neural Networks', 'relevance': 3},
        {'query': 'machine learning', 'document': 'Computer Vision Techniques', 'relevance': 2},
        {'query': 'machine learning', 'document': 'Database Management Systems', 'relevance': 0},
        {'query': 'python programming', 'document': 'Python for Data Science', 'relevance': 4},
        {'query': 'python programming', 'document': 'Java Programming Guide', 'relevance': 1},
        {'query': 'deep learning', 'document': 'Deep Learning and Neural Networks', 'relevance': 4},
        {'query': 'deep learning', 'document': 'Machine Learning Basics', 'relevance': 2},
    ]
    
    # 训练Pointwise模型
    ranker = PointwiseRanker(model_type='linear')
    ranker.fit(training_data)
    
    # 测试查询
    test_query = 'machine learning algorithms'
    test_documents = [
        'Machine Learning Algorithm Comparison',
        'Deep Learning Tutorial',
        'Database Design Principles',
        'Introduction to Algorithms',
        'Statistical Learning Theory'
    ]
    
    # 预测排序
    results = ranker.predict(test_query, test_documents)
    
    print("🎯 Pointwise排序结果：")
    for result in results:
        print(f"排名 {result['rank']}: {result['document']}")
        print(f"   分数: {result['score']:.4f}")
        print(f"   关键特征: exact_match={result['features']['exact_match_ratio']:.3f}, "
              f"cosine_sim={result['features']['cosine_similarity']:.3f}")
        print()
    
    # 特征重要性
    importance = ranker.get_feature_importance()
    print("📊 特征重要性排序：")
    for feature, weight in importance[:5]:
        print(f"   {feature}: {weight:.4f}")

# 运行演示
# demonstrate_pointwise()

⚖️ Pairwise：相对比较的智慧实现

# ==========================================
# Pairwise排序：成对比较的高级实现
# ==========================================

import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
import itertools

class PairwiseRanker:
    """
    Pairwise排序算法的完整实现
    
    核心思想：学习文档对的偏序关系，A比B更相关
    历史意义：开启了Learning to Rank的新时代
    """
    
    def __init__(self, model_type='logistic', **kwargs):
        self.model_type = model_type
        self.model = None
        self.feature_names = None
        
        # 初始化分类器
        if model_type == 'logistic':
            self.model = LogisticRegression(**kwargs)
        elif model_type == 'svm':
            self.model = SVC(probability=True, **kwargs)
        elif model_type == 'neural_network':
            self.model = MLPClassifier(hidden_layer_sizes=(100, 50), **kwargs)
        else:
            raise ValueError(f"不支持的模型类型: {model_type}")
    
    def extract_pairwise_features(self, query, doc1, doc2):
        """
        提取文档对的相对特征
        
        策略：
        1. 差值特征：feature(doc1) - feature(doc2)
        2. 比值特征：feature(doc1) / feature(doc2)
        3. 组合特征：cross features
        """
        # 提取单文档特征
        features1 = self._extract_single_doc_features(query, doc1)
        features2 = self._extract_single_doc_features(query, doc2)
        
        pairwise_features = {}
        
        # 差值特征
        for key in features1:
            pairwise_features[f'{key}_diff'] = features1[key] - features2[key]
        
        # 比值特征（避免除零）
        for key in features1:
            if features2[key] != 0:
                pairwise_features[f'{key}_ratio'] = features1[key] / features2[key]
            else:
                pairwise_features[f'{key}_ratio'] = features1[key] if features1[key] != 0 else 1
        
        # 组合特征
        pairwise_features['length_interaction'] = (features1['doc_length'] * features2['exact_match_ratio'])
        pairwise_features['match_interaction'] = (features1['exact_match_ratio'] * features2['cosine_similarity'])
        
        return pairwise_features
    
    def _extract_single_doc_features(self, query, document):
        """
        提取单文档特征（复用Pointwise的特征提取）
        """
        features = {}
        
        query_terms = query.lower().split()
        doc_terms = document.lower().split()
        
        # 匹配特征
        common_terms = set(query_terms) & set(doc_terms)
        features['exact_match_ratio'] = len(common_terms) / len(query_terms) if query_terms else 0
        features['query_coverage'] = len(common_terms) / len(set(query_terms)) if query_terms else 0
        features['doc_coverage'] = len(common_terms) / len(set(doc_terms)) if doc_terms else 0
        
        # TF-IDF相似度
        query_tf = {term: query_terms.count(term) for term in set(query_terms)}
        doc_tf = {term: doc_terms.count(term) for term in set(doc_terms)}
        
        cosine_sim = 0
        query_norm = sum(freq**2 for freq in query_tf.values()) ** 0.5
        doc_norm = sum(freq**2 for freq in doc_tf.values()) ** 0.5
        
        if query_norm > 0 and doc_norm > 0:
            dot_product = sum(query_tf.get(term, 0) * doc_tf.get(term, 0) 
                            for term in set(query_terms) | set(doc_terms))
            cosine_sim = dot_product / (query_norm * doc_norm)
        
        features['cosine_similarity'] = cosine_sim
        
        # BM25分数
        features['bm25_score'] = self._compute_bm25(query_terms, doc_terms)
        
        # 长度特征
        features['query_length'] = len(query_terms)
        features['doc_length'] = len(doc_terms)
        features['length_ratio'] = len(doc_terms) / len(query_terms) if query_terms else 0
        
        return features
    
    def _compute_bm25(self, query_terms, doc_terms, k1=1.2, b=0.75):
        """计算BM25分数"""
        doc_len = len(doc_terms)
        avgdl = 50
        
        score = 0
        for term in set(query_terms):
            tf = doc_terms.count(term)
            if tf > 0:
                idf = 1
                score += idf * (tf * (k1 + 1)) / (tf + k1 * (1 - b + b * doc_len / avgdl))
        
        return score
    
    def prepare_pairwise_data(self, training_data):
        """
        将标注数据转换为成对比较数据
        
        策略：对于同一query下的不同文档，
        如果relevance(doc1) > relevance(doc2)，则生成正样本
        """
        pairwise_features = []
        pairwise_labels = []
        
        # 按query分组
        query_groups = {}
        for item in training_data:
            query = item['query']
            if query not in query_groups:
                query_groups[query] = []
            query_groups[query].append(item)
        
        # 生成成对数据
        for query, items in query_groups.items():
            for i, item1 in enumerate(items):
                for j, item2 in enumerate(items):
                    if i != j:  # 不同文档
                        # 提取成对特征
                        features = self.extract_pairwise_features(
                            query, item1['document'], item2['document']
                        )
                        pairwise_features.append(features)
                        
                        # 生成标签：1表示doc1比doc2更相关，0表示相反
                        if item1['relevance'] > item2['relevance']:
                            pairwise_labels.append(1)
                        elif item1['relevance'] < item2['relevance']:
                            pairwise_labels.append(0)
                        else:
                            # 相关性相同，随机标签或跳过
                            continue
        
        # 转换为DataFrame
        df_features = pd.DataFrame(pairwise_features)
        self.feature_names = df_features.columns.tolist()
        
        return df_features.values, np.array(pairwise_labels)
    
    def fit(self, training_data):
        """
        训练Pairwise排序模型
        """
        X, y = self.prepare_pairwise_data(training_data)
        
        print(f"生成成对样本数: {len(X)}")
        print(f"正样本比例: {np.mean(y):.3f}")
        
        # 训练分类器
        self.model.fit(X, y)
        
        # 评估训练效果
        y_pred = self.model.predict(X)
        train_accuracy = accuracy_score(y, y_pred)
        print(f"成对分类准确率: {train_accuracy:.4f}")
        
        return self
    
    def predict_pairwise_preference(self, query, doc1, doc2):
        """
        预测两个文档的相对偏好
        
        返回：doc1比doc2更相关的概率
        """
        if self.model is None:
            raise ValueError("模型未训练")
        
        features = self.extract_pairwise_features(query, doc1, doc2)
        df_features = pd.DataFrame([features])
        df_features = df_features.reindex(columns=self.feature_names, fill_value=0)
        
        # 预测概率
        if hasattr(self.model, 'predict_proba'):
            prob = self.model.predict_proba(df_features.values)[0][1]  # 正类概率
        else:
            prob = 0.5  # 默认概率
        
        return prob
    
    def rank_documents(self, query, documents):
        """
        使用成对比较对文档排序
        
        策略：构建偏好矩阵，用排序算法得到最终排序
        """
        n_docs = len(documents)
        
        # 构建偏好矩阵
        preference_matrix = np.zeros((n_docs, n_docs))
        
        for i in range(n_docs):
            for j in range(n_docs):
                if i != j:
                    prob = self.predict_pairwise_preference(
                        query, documents[i], documents[j]
                    )
                    preference_matrix[i][j] = prob
        
        # 计算每个文档的总偏好分数
        scores = np.sum(preference_matrix, axis=1)
        
        # 排序
        ranked_indices = np.argsort(scores)[::-1]
        
        results = []
        for rank, idx in enumerate(ranked_indices):
            results.append({
                'rank': rank + 1,
                'document': documents[idx],
                'preference_score': scores[idx],
                'win_rate': scores[idx] / (n_docs - 1) if n_docs > 1 else 0
            })
        
        return results

# ==========================================
# RankNet：神经网络Pairwise排序
# ==========================================

class RankNet:
    """
    RankNet算法：神经网络学习排序
    
    历史意义：第一个端到端的深度学习排序算法
    创新点：直接优化排序损失函数
    """
    
    def __init__(self, hidden_size=50, learning_rate=0.01, epochs=100):
        self.hidden_size = hidden_size
        self.learning_rate = learning_rate
        self.epochs = epochs
        self.W1 = None
        self.b1 = None
        self.W2 = None
        self.b2 = None
        self.feature_dim = None
    
    def sigmoid(self, x):
        """Sigmoid激活函数"""
        return 1 / (1 + np.exp(-np.clip(x, -500, 500)))
    
    def forward(self, x):
        """前向传播"""
        z1 = np.dot(x, self.W1) + self.b1
        a1 = np.tanh(z1)  # 隐藏层激活
        z2 = np.dot(a1, self.W2) + self.b2
        a2 = z2  # 输出层（线性）
        return a2, a1
    
    def compute_pairwise_loss(self, score1, score2, label):
        """
        计算RankNet损失函数
        
        P(doc1 > doc2) = sigmoid(score1 - score2)
        Loss = -label * log(P) - (1-label) * log(1-P)
        """
        diff = score1 - score2
        prob = self.sigmoid(diff)
        
        # 避免log(0)
        prob = np.clip(prob, 1e-15, 1 - 1e-15)
        
        if label == 1:  # doc1比doc2更相关
            loss = -np.log(prob)
        else:  # doc2比doc1更相关
            loss = -np.log(1 - prob)
        
        return loss, prob
    
    def fit(self, X_pairs, y_pairs):
        """
        训练RankNet模型
        
        X_pairs: (n_pairs, 2, n_features) - 文档对特征
        y_pairs: (n_pairs,) - 偏好标签
        """
        n_pairs, _, n_features = X_pairs.shape
        self.feature_dim = n_features
        
        # 初始化权重
        self.W1 = np.random.normal(0, 0.1, (n_features, self.hidden_size))
        self.b1 = np.zeros(self.hidden_size)
        self.W2 = np.random.normal(0, 0.1, (self.hidden_size, 1))
        self.b2 = 0
        
        # 训练循环
        for epoch in range(self.epochs):
            total_loss = 0
            
            for i in range(n_pairs):
                # 前向传播
                x1, x2 = X_pairs[i][0], X_pairs[i][1]
                score1, hidden1 = self.forward(x1)
                score2, hidden2 = self.forward(x2)
                
                # 计算损失
                label = y_pairs[i]
                loss, prob = self.compute_pairwise_loss(score1[0], score2[0], label)
                total_loss += loss
                
                # 反向传播
                if label == 1:
                    dP = prob - 1  # 对score1-score2的梯度
                else:
                    dP = prob
                
                # 梯度
                dScore1 = dP
                dScore2 = -dP
                
                # 更新权重（简化版梯度下降）
                # 实际实现中需要完整的反向传播
                dW2_1 = dScore1 * hidden1.reshape(-1, 1)
                dW2_2 = dScore2 * hidden2.reshape(-1, 1)
                
                self.W2 -= self.learning_rate * (dW2_1 + dW2_2)
                self.b2 -= self.learning_rate * (dScore1 + dScore2)
            
            if epoch % 20 == 0:
                print(f"Epoch {epoch}: Average Loss = {total_loss/n_pairs:.4f}")
    
    def predict_score(self, x):
        """预测单个文档的分数"""
        score, _ = self.forward(x)
        return score[0]
    
    def rank_documents(self, query_features):
        """
        对文档排序
        
        query_features: (n_docs, n_features)
        """
        scores = []
        for features in query_features:
            score = self.predict_score(features)
            scores.append(score)
        
        ranked_indices = np.argsort(scores)[::-1]
        return ranked_indices, scores

# ==========================================
# 使用示例：Pairwise vs Pointwise对比
# ==========================================

def compare_pointwise_pairwise():
    """
    对比Pointwise和Pairwise排序效果
    """
    # 构造测试数据
    training_data = [
        {'query': 'machine learning', 'document': 'Machine Learning Algorithms and Applications', 'relevance': 4},
        {'query': 'machine learning', 'document': 'Introduction to Deep Learning', 'relevance': 3},
        {'query': 'machine learning', 'document': 'Statistical Methods in Data Science', 'relevance': 2},
        {'query': 'machine learning', 'document': 'Computer Graphics Programming', 'relevance': 0},
        {'query': 'data science', 'document': 'Data Science with Python', 'relevance': 4},
        {'query': 'data science', 'document': 'Machine Learning for Data Analysis', 'relevance': 3},
        {'query': 'data science', 'document': 'Database Management', 'relevance': 1},
    ]
    
    # 训练Pointwise模型
    pointwise = PointwiseRanker(model_type='linear')
    pointwise.fit(training_data)
    
    # 训练Pairwise模型
    pairwise = PairwiseRanker(model_type='logistic')
    pairwise.fit(training_data)
    
    # 测试查询
    test_query = 'machine learning data science'
    test_docs = [
        'Advanced Machine Learning Techniques',
        'Data Science and Analytics',
        'Web Development with JavaScript',
        'Statistical Learning Theory',
        'Computer Vision Applications'
    ]
    
    print("🎯 Pointwise排序结果：")
    pointwise_results = pointwise.predict(test_query, test_docs)
    for result in pointwise_results[:3]:
        print(f"{result['rank']}. {result['document']} (分数: {result['score']:.3f})")
    
    print("\n⚖️ Pairwise排序结果：")
    pairwise_results = pairwise.rank_documents(test_query, test_docs)
    for result in pairwise_results[:3]:
        print(f"{result['rank']}. {result['document']} (胜率: {result['win_rate']:.3f})")
    
    print("\n📊 排序差异分析：")
    pointwise_order = [r['document'] for r in pointwise_results]
    pairwise_order = [r['document'] for r in pairwise_results]
    
    for i, (p1, p2) in enumerate(zip(pointwise_order[:3], pairwise_order[:3])):
        if p1 != p2:
            print(f"位置{i+1}不同: Pointwise='{p1}' vs Pairwise='{p2}'")

# 运行对比实验
# compare_pointwise_pairwise()

🎯 历史的最终评判：谁赢得了搜索引擎大战？

🏆

🏆 二十七年战争的终极结论

🎯 Pointwise的永恒价值

工程基石：所有搜索引擎的基础算法
可解释性：特征权重直观明确
计算效率：O(n)复杂度，适合实时系统
稳定可靠：数十年工业验证

⚖️ Pairwise的革命贡献

理论突破：开创Learning to Rank领域
效果显著：排序质量平均提升20%
深度学习：奠定现代AI排序基础
商业价值：推动搜索广告收入增长

🤝 现代融合：最佳实践的智慧结晶

🚀 召回阶段

Pointwise快速筛选，从亿级缩减到千级

🎯 粗排阶段

轻量Pairwise模型，平衡效果与效率

⚡ 精排阶段

重型Pairwise/Listwise，追求极致效果

"历史告诉我们：没有永远的敌人，只有永恒的进步。
Pointwise与Pairwise的伟大，在于它们共同推动了信息检索的革命。"

🚀 写在最后：搜索算法的哲学思辨

从1998年Google诞生的那一刻起，Pointwise与Pairwise就注定要展开这场持续27年的算法哲学大战。这不仅仅是技术路线的分歧，更是对"相关性本质"的深刻思辨：

相关性是绝对的，还是相对的？这个问题至今仍在困扰着我们。

🎯 Pointwise的哲学：相信客观真理的存在，每个文档都有其固有的相关性分数
⚖️ Pairwise的智慧：认为相关性是比较中产生的，只有对比才能发现价值
🤝 现代的融合：承认两种观点都有其合理性，在不同场景下发挥不同作用

技术启示：

没有银弹：每种方法都有其适用边界，关键是找到最佳匹配
进化不息：从简单到复杂，从独立到关联，算法在矛盾中前进
用户至上：无论采用哪种技术，最终目标都是提升用户体验

当你下次在Google搜索框中输入关键词，在0.1秒内获得精准结果时，请记住：这背后是两大算法哲学历经27年博弈与融合的智慧结晶。

下期预告：🤖 2017年智能客服革命：从规则引擎到深度学习的AI客服进化史！

敬请期待人工智能如何从简单的if-else规则，进化成能理解人类情感的智能助手...