倒计时7天 | 2025年CCF-快手大模型探索者基金_最新动态

首页 > 最新动态 > 倒计时7天 | 2025年CCF-快手大模型探索者基金

最新动态

倒计时7天 | 2025年CCF-快手大模型探索者基金

2025-11-24718

2025年CCF-快手大模型探索者基金聚焦于大模型技术基础研究与应用探索，共开放18个课题，每项课题资助不高于人民币30万元，课题即将于2025年12月1日24:00截止申报，欢迎CCF会员积极申报。

CCF-快手大模型探索者基金

2025年，CCF与快手联合发布第二期“CCF-快手大模型探索者基金”（以下简称“大模型探索者基金”）。大模型探索者基金在2025年度共发布18项研究课题，围绕“大语言模型”、“视觉理解与生成大模型”、“视频处理大模型”、“生成式推荐/搜索/广告大模型”、“大模型应用”、“大数据方向”这6个重点研究方向，为每项课题提供不高于人民币30万元的资助，同时快手将提供技术、算力、和脱敏数据等资源支持。

项目期间，为确保学生能够接触到真实的应用场景，快手将提供学生实习的机会，实习生薪酬由快手公司单独承担。

申请条件

本基金将面向符合如下条件的海内外所有高校及科研院所学者展开：

1.申请者须是全球高校/科研院所在职的全职教师或研究人员；

2.申请者具有博士学位或者研究生指导资格；

3.申请者能独立进行研究工作，并带领学生团队共同参与课题研究与实践；

4.同等条件下，申请者为CCF会员为优先选择。

如何申报

申请截止时间：2025年12月1日24:00 。

申请方式：申请者请点击阅读原文，查看附件一《2025年课题申报介绍》，下载填写附件三《CCF-快手大模型探索者基金2025年项目申报表》并提交至项目组专用邮箱explorer_fund@kuaishou.com，标题请注明【基金申报】。

扫码二维码，下载附件。

课题详情

针对本次开放申报的18项课题，CCF联合快手已于11月10-11日15:00-17:00期间举行2场课题宣讲直播，扫描以下二维码，查看直播回放。

2025年CCF-快手大模型探索者基金课题宣讲直播①

2025年CCF-快手大模型探索者基金课题宣讲直播②

本文将就正在申报中的18项课题做详细介绍：

一、大语言模型

1.大语言模型的模型架构创新和高效训推

课题背景：

近年来，随着模型尺寸、数据规模、推理长度的快速 Scaling，大语言模型（LLMs）展现出愈发强大的语言理解、推理能力和生成能力。这些模型性能持续提升的背后，是算力和存储资源的急剧消耗。现有基于 Transformer 的 LLM 架构虽然性能优异，但计算复杂度与序列长度呈平方关系，在处理长文本时效率极低且模型参数利用率不高，使得大模型的训练与推理的成本居高不下，限制了被广泛落地和丰富应用形式的可能性。同时，上下文信息的不断丰富以及推理长度的不断扩展，也给 LLMs 能够处理的上下文长度提出了较大的挑战。本课题计划从 LLM 架构创新的角度出发，提升大规模总参数下的训练和推理效率，同时提升大模型处理长上下文的能力。

建议研究方向：

本课题希望在保持模型性能的同时大幅降低计算复杂度，推荐研究方向如：

（1）设计高稀疏度的 MoE 结构及其稳定训练方法；

（2）探索研究线性注意力机制等创新的模型架构。

课题目标：

（1）产出CCF-A类及同等水平的会议论文2篇；

（2）产出对应创新架构的开闭源模型；

（3）在实际应用场景中达到可行性验证。

二、视觉理解与生成大模型

1.多模态音频理解大模型

课题背景：

快手视频生成模型Kling在行业破圈，在国内外都形成非常好影响力。目前Kling在推进原生视频-音频联合生成模型，其训练数据非常依赖音效/音乐caption和对话语音文本，因此，我们需要一个多模态音频理解大模型来获取高质量的语音、音效和音乐的文本caption信息。痛点问题：现有的音频理解模型无法准确的获取音频标签、音乐标签、音频描述、语音对话文本等信息，极大的限制了音频生成的效果。我们拟研发多模态音频理解大模型，为接下来我们进行Kling原生音视频联合生成技术的研发提供准确的、高质量的音频文本caption。目标音频caption的准确率达到90%以上，技术客观指标达到行业SOTA。

建议研究方向：

（1）研发多模态音频理解大模型，获取高质量的语音、音效和音乐的文本caption信息。

课题目标：

（1）交付算法模型和源码，目标音频caption的准确率达到90%以上；

（2）产出1-2篇顶会论文；

（3）申请1-2项发明专利。

2.面向细粒度条件控制的多模态智能体生图模型研究

课题背景：

快手电商的商品素材质量参差不齐，需要借助AIGC技术实现高质量、个性化的图片生成，以提升内容创意与转化效率。目前主流图像生成模型（如扩散模型）在每次生成时需执行数十步复杂计算，依赖大量数据与算力资源，导致模型训练与应用成本高、速度慢，难以满足电商场景下高频、快速的内容生产需求。此外，不同业务任务（如服饰上身、背景替换、风格迁移、商品合成等）对生成的控制条件各不相同，为每个任务单独训练垂类模型成本极大、通用性不足。与此同时，AIGC在真实业务落地中还面临以下关键挑战：

（1）文字理解差异性：电商场景的描述文本复杂多样，语义歧义、模糊描述及不一致标签会直接影响生成prompt的准确性与生成结果的语义对齐；

（2）标签噪声：海量素材标注中普遍存在伪标签与错误标注，导致模型学习偏差，影响可控性与泛化能力；

（3）缺乏反馈与优化机制：现有模型多为“单次生成”模式，缺乏自感知与自纠错能力，无法根据任务反馈持续优化生成质量。

为应对上述问题，引入多模态大模型驱动的智能体（Agent）成为新的研究方向。智能体以多模态大模型为核心，能够在生成的全流程中实现“理解—生成—反馈—修正”的动态闭环。在生成前，Agent可理解用户输入的文本与标签信息，识别语义歧义与噪声，生成精准的prompt；在生成后，Agent通过多维评价（语义一致性、美学质量、风格匹配等）进行反馈，进而优化下一轮生成策略，实现training-free的自适应可控生成。在这一框架中，强化学习的思想可嵌入Agent的自反馈决策过程中，用于奖励优化与策略聚合，从而在推理阶段实现动态优化与自演化。因此，构建一个具备语义理解、标签纠错与自反馈优化能力的多模态智能生图框架，是推动AIGC技术在快手电商场景落地的关键研究方向。

建议研究方向：

（1）构建融合视觉—语言大模型的智能体框架，使其在生成前能自动识别文本歧义与噪声，进行prompt精细化处理；

（2）在生成后引入强化学习式的多目标反馈优化机制，基于生成结果的语义一致性、美学得分等动态调整生成策略；

（3）改进 Diffusion Transformer 框架，结合智能体策略决策模块，实现低算力下的快速多条件生成；通过蒸馏数据与强化反馈，实现小样本、高置信、高稳定性的生成模型。

课题目标：

（1）产出算法模型及源代码，形成算法接口与标准文档；

（2）产出CCF-A类论文1～2篇；

（3）申请发明专利1～2项；

（4）在应用场景中达到可行性验证，并带来GMV的ab提升。

3.视频创作智能体的自我进化与持续能力提升研究

课题背景：

本课题从智能体视角构建视频创作系统，探索自主持续学习与能力演化机制。现有视频生成智能体在长时序叙事连贯性、复杂任务规划与执行、以及部署后自我迭代等方面存在显著瓶颈。研究将结合自我探索训练、自动化评测和强化学习等方法，构建端到端智能体体系，实现多模态理解、生成与编辑的高质量视频创作，并推动智能体在部署环境中持续自我演化与能力提升，为智能视频创作的可持续发展提供技术和方法基础。

建议研究方向：

（1）基于自我探索的Agent训练：研究在缺乏密集外部奖励信号下，智能体如何进行有效的自我驱动学习。探索不依赖显式外部奖励的训练方法，通过Agent自我探索和试错获取内在监督信号，实现能力提升；

（2）视频创作智能体的自动化评测与Agentic RL训练：针对视频创作任务，设计自动化评测体系和Reward Model，并结合强化学习优化智能体策略。

课题目标：

（1）产出算法模型及源代码，支持保真复现；

（2）产出CCF-A类论文2篇；

（3）发明专利：围绕核心技术点，申请发明专利1～2项；

（4）在可灵实际创作场景中，验证业务有效性。

4.视频生成领域的数据选择算法

课题背景：

视频生成模型需要海量的高质量视频数据，获取高质量的视频数据成本较高，主要原因如下：

（1）相比于文本，图像等，视频数据在自然界本身的量就较为有限；

（2）视频数据特别是高质量的视频数据，主要来源于各种音视频，短视频等网站。免费的视频数据源较少，同时数据采买的成本，由于版权等原因，采买成本较高；

（3）视频数据由于其信息密度较高等原因，其存储，处理，加工等成本很高。

同时，数据质量直接决定了模型的训练效果。在模型参数量确定的情况下，选择什么样的数据给到模型训练，直接决定了模型的效果表现。数据选择算法的核心，就是解决如何选择一个最高质量的数据集合，从而保证模型的效果最佳。同时，数据选择算法也能降低低质量数据的存储，使用和处理成本，有效提高资源的使用效率。数据选择算法在LLM等领域已经被证明能够有效的达到较好的效果。在视频生成领域，数据选择算法并无显性研究进展，属于尚未开发但是很有前景的领域，研究和业务潜力都很大。

建议研究方向：

（1）面向视频生成模型的智能数据选择与优化框架研究。

课题目标：

（1）产出算法模型及源代码；

（2）联合署名投稿CCF-A类/领域顶会论文2篇；

（3）申请1-2项专利。

三、视频处理大模型

1.基于扩散模型的移动端视频处理算法研究

课题背景：

在底层视觉领域，基于扩散模型的视频处理算法取得了显著的进展，扩散模型参数量大和算力要求高的特性，导致多在云端部署推理服务，而相较于云端部署，端侧部署可充分利用终端设备的算力，在算力成本、用户信息安全、实时性以及个性化用户体验等方面具备显著优势，随着终端NPU芯片算力的不断提升，端侧部署处理大模型成为可能，本课题希望能够充分发挥端侧NPU算力优势，同时结合先进的大模型量化加速算法，助力快手成为首批落地端侧处理大模型的短视频应用，在消费清晰度上取得显著的提升。

建议研究方向：

（1）基于现有扩散模型处理技术，优化模型架构，同时结合蒸馏和量化等手段，在保证清晰度提升的情况下，尽可能降低模型复杂度；

（2）基于NPU芯片适配方案，如联发科的NeuroPilot Fusion、高通的SNPE，优化模型端侧推理性能。

课题目标：

（1）出算法模型及源代码；

（2）产出CCF-A类论文1篇；

（3）申请发明专利1项；

（4）在快手数据集上，快手视频/图片质量评估（Kuaishou Visual Quality，KVQ）等主观指标提升0.2以上，落地快手主站APP，在旗舰芯片(高通8 Elite/8Gen3、天玑9500/9400）720p视频处理速度达到25fps。

2.视频色彩处理算法与评价

课题背景：

近年来，图像与视频生成类大模型迅速发展，能够高质量的实现无中生有，此外，基于视频生成先验的视频处理大模型也取得了显著的进步，借助文生图等大模型的先验信息，能够在取得高保真度的基础上，实现清晰度的显著提升，远远超过了传统的视频修复与增强算法。但是，如何利用大模型的高效理解与生成能力，进一步提升视频的色彩观感，包括光照、对比度、饱和度等，仍然是一个具有重要意义的研究问题。已有的一些算法能够借助大模型实现光照重打或者对比度提升与色彩增强等，但对于快手平台的真实UGC场景，难以在效果与自然度和一致性之间取得较好平衡。本课题希望能够充分发掘大模型的先验信息，并能够结合真实场景的输入视频，在增强效果与一致性之间取得突破，全面理解并提升快手视频的色彩观感。

建议研究方向：

（1）基于现有的大模型技术，结合真实场景，针对性设计重光照或色彩、曝光等增强算法框架，提升视频观感；

（2）研究并设计丰富的色彩评估体系，包含亮度、对比度、饱和度等，基于多模态大模型技术量化视频处理前后的色彩观感变化，主观一致性达到最佳。

课题目标：

（1）CCF-A类论文1篇；

（2）产出算法模型以及源代码；

（3）申请发明专利1项；

（4）在应用场景中达到可行性验证。

四、生成式推荐/搜索/广告大模型

1.基于生成式大模型的广告系统研究

课题背景：

最近，生成式推荐系统将推荐问题视为序列生成任务，相比传统推荐系统具有更高的计算效率和灵活性，表现出很大潜力。随着大模型（如GPT、T5等）的发展，生成式推荐在短视频、电商等领域已取得显著成果（如OneRec[1]、MTGR[2]）。然而，在广告推荐场景中，数据与目标的特殊性带来了新的挑战。广告行为数据存在天然的不连贯性和跨行为弱关联，序列模式的直接学习效果有限。同时，广告系统需同时考虑用户满意度、平台收入、广告主投放效果等多重优化目标，对模型的生成与决策能力提出更高要求。在此背景下，基于生成式大模型的广告推荐具备广阔潜力。一方面，扩大模型规模和输入序列长度，并设计更好的行为关联捕捉结构，可以更好地捕捉用户长期兴趣与行为模式以及广告的跨行为关联，提升推荐的准确性与个性化程度。另一方面，结合广告领域数据与大模型的世界知识与推理能力，有望缓解数据稀疏、样本不均等问题，并提升投放策略智能化水平。本课题的研究目标是通过构建针对广告场景的生成式推荐大模型，解决广告数据建模不足、长期兴趣捕捉不充分及多目标优化难等问题，提升广告推荐的精准性与收益性。

建议研究方向：

（1）基于大模型的生成式广告推荐架构设计：研究适配广告推荐任务的端到端生成框架，实现更高效、更简洁的系统结构，并支持大规模广告数据处理；

（2）多任务与多目标优化：探索结合监督学习与强化学习的训练范式，在生成推荐结果的同时兼顾用户满意度、平台收入和广告主投放效果等目标；

（3）广告行为数据建模：针对广告行为数据稀疏、关联性弱的特点，设计特定的输入表示与建模方法，提升数据利用率和模式捕捉能力；

（4）模型规模与效果关联研究：分析生成式广告模型在不同参数规模、输入长度下的效果变化规律（Scaling Law），指导后续优化；

（5）融合领域知识与大模型能力：结合广告领域的协同信息，引入大模型内部知识与推理能力，提升推荐的准确性与解释性。

课题目标：

（1）产出算法模型及可复现的源代码；

（2）产出CCF-A类论文1～2篇；

（3）在真实广告推荐场景中完成可行性验证，商业化大盘预期花费提升1% 。

2.基于大模型的渐进式兴趣引导推荐算法研究

课题背景：

传统推荐系统主要依赖用户历史行为进行被动推荐，虽能短期提升点击率，却容易导致“信息茧房”和重复推荐问题，使用户兴趣固化、体验下降。随着用户对内容多样性和探索性需求的提升，推荐系统需从“顺应用户偏好”向“引导用户偏好”演进，实现兴趣的渐进式拓展。当前基于Transformer或大语言模型（LLM）的引导方法虽有一定进展，但仍存在用户接受度建模不足、路径规划僵硬、计算成本高等问题。本课题旨在构建一套基于强化学习的主动引导推荐框架，核心研究内容包括：用户兴趣动态建模：融合序列行为与上下文信息，实时捕捉用户兴趣演化轨迹；目标内容选择机制：通过多目标优化平衡用户偏好与业务目标，提升推荐多样性与可接受性；渐进式引导路径设计：将推荐过程建模为多步决策问题，通过强化学习优化路径平滑性与个性化。预期成果包括：可部署的推荐算法系统、高水平学术论文、以及在真实场景中验证的用户APP使用时长、留存和内容探索效率提升。

建议研究方向：

为保障课题聚焦与可落地性，建议合作老师围绕以下三个方向展开研究：

（1）用户兴趣状态的实时表示与更新机制：结合时序建模与LLM增强的物品语义理解，构建轻量化、高精度的用户状态向量；

（2）多目标协同的目标内容筛选策略：设计兼顾用户偏好相关性、业务目标达成度与内容多样性的动态选择算法；

（3）基于Model-based强化学习的路径优化方法：利用LLM模拟用户反馈，训练轻量决策模型，实现低成本、高效益的引导策略。

课题目标：

（1）产出基于强化学习的引导推荐算法模型及可复现源代码；

（2）在推荐系统顶级会议或期刊（如KDD、RecSys、TKDE）发表论文1～2篇；

（3）在快手业务场景中实现离线与在线验证，提升用户APP使用时长和留存等核心指标。

3.面向电商场景的智能交互式搜索算法研究

课题背景：

当前电商搜索正经历从关键词匹配到自然语言交互的重大范式转换。传统电商搜索存在用户难以精确表达复杂购买需求、缺乏个性化理解、无法处理模糊或复合意图等痛点，严重影响用户购物体验。虽然多轮对话、Agent系统、Chain-of-Thought推理、RAG等前沿技术已趋于成熟，但缺乏将这些技术有机整合应用于电商搜索的完整解决方案。本课题旨在构建基于大模型的智能交互式搜索系统，通过多轮对话深度理解用户真实需求，实现需求收敛、产品理解、比价决策等核心功能，将购物体验从"关键词匹配"升级为"意图理解"，推动电商搜索向智能化、对话化方向发展。

建议研究方向：

（1）基于大模型的多轮对话状态管理与上下文理解机制，实现连续一致的购物意图追踪；

（2）智能Agent框架设计，整合query改写、商品搜索、RAG知识检索等工具，实现动态任务编排；

（3）面向电商的Chain-of-Thought推理机制，提升复杂查询的逐步分析和决策能力；

（4）多模态融合的组合图像检索技术，支持图文混合的灵活搜索交互；

（5）基于RAG的商品知识库构建与动态检索，提供准确的产品信息和比价分析。

课题目标：

（1）产出完整的交互式搜索算法框架及源代码；

（2）产出CCF-A类论文1～2篇（CVPR、AAAI、ICLR等）；

（3）申请发明专利1～2项；

（4）在快手电商搜索场景实现落地，并拿到置信显著的业务效果。

4.面向快手电商场景的基于CoT推理增强的端到端生成式架构

课题背景：

当前基于生成式架构的端到端生成式方案，正在逐步解构传统的搜推框架；目前电商搜索算法团队已经研究出了业界第一个端到端搜索架构OneSearch，依赖于模型丰富的领域知识，和强大的推理能力，生成式架构往往使用较少的资源，就能带来离线指标和在线转化的显著提升。经过深入的分析发现，当前的生成式方案，对用户的个性化偏好理解仍不足：

（1）输入搜索词比较宽泛时，无法做到准确搜索：比如突然爆火的“labubu”，由于之前模型没有见过类似词句，又不能及时从外接获取相关信息，因此往往零少召回；

（2）对于每日新来的无历史行为用户，他们搜索一个全新类型的商品时 (比如新晋奶爸购买奶粉)，传统的排序模型无法高效建模该用户历史偏好从而推出真实想要的奶粉类型。

这些都限制了搜索系统的高效承接。本课题旨在构建基于CoT进行推理增强的端到端生成式搜索架构OneSearch 2.0，通过显式&隐式CoT增强的方案，让系统对用户搜索词实时引入外部信息，并通过混合推理的方式，进行query词和用户意图的准确建模，从而实现真正更懂用户需求，更加智能的搜索系统。

建议研究方向：

（1）基于RAG Reranker实现外部信息的精准收集，并对多源数据进行筛选，剔除无效数据；

（2）面向电商的Chain-of-Thought推理机制，提升复杂query意图的逐步分析和决策能力；

（3）智能Agent框架设计，实现外部信息抓取决策、动态RAG增益路由，OneSearch模型推理；

（4）多模态信息融合，对图文互补的属性进行显式化补充，互斥属性进行可行性筛选；

（5）引入Hybird CoT Reasoning的范式，实现显式推理和隐式推理的融合。

课题目标：

（1）产出完整的交互式搜索算法框架及源代码；

（2）产出CCF-A类论文2～3篇（AC、AAAI、ICLR等）；

（3）申请发明专利1～2项；

（4）在快手电商搜索场景实现落地，并拿到置信显著的业务效果。

5.端到端个性化短视频生成与推荐模型研究

课题背景：

短视频已成为数字内容消费的主流形态，而用户对内容的个性化需求日益极致化。当前主流平台依赖“先批量人工生产，后个性化系统匹配”的范式，其效能已逼近天花板：一方面，传统推荐系统受限于固定内容池，无法为用户的独特兴趣“无中生有”；另一方面，尽管AI视频生成模型已能生成高质量视觉片段，但其计算复杂度高、可控性不足，且其生成过程与用户的实时兴趣脱节，很难做到端到端个性化生产并推荐的模式。因此，本研究旨在解决上述割裂范式，探索一种端到端的个性化短视频生成与推荐模型，该模型将内容生成与推荐统一为一个连贯的智能任务，其核心思想是：模型应直接根据对用户意图的深度理解，动态生成“命中其当下兴趣”的短视频，并即刻推荐，形成一个“感知-生成-推荐-反馈”的实时闭环。该研究不仅是单点技术的研究和优化，更是一次从“信息过滤”到“信息创造”范式迁移的系统性探索，对构建下一代具备“内容自生长”能力的智能信息平台具有奠基性意义。

建议研究方向：

研究为构建一个能够理解用户动态兴趣、并据此端到端地生成与推荐个性化短视频的模型原型，验证其技术可行性及用户体验优越性。具体内容可包含四个部分：

（1）动态用户兴趣的多模态感知与表征：探索如何融合用户的隐式和显式反馈及上下文信息，构建一个能够实时演化、且适用于生成模型的动态用户表征，研究如何将该表征转化为可指导视频生成的“控制信号”；

（2）基于兴趣引导的可控短视频生成技术：研究如何将动态用户表征作为强条件，嵌入到视频生成扩散模型或大语言模型中；

（3）内容生成与推荐任务的端到端协同优化：探索多任务学习框架或强化学习框架，设计联合损失函数，使模型在训练过程中同时优化“生成内容的质量”与“内容被用户接受的概率”；

（4）原型系统构建与新型评估体系设计：实现一个可评估的原型系统，完成从用户行为输入到短视频生成与展示的完整闭环；建立超越传统指标的多维评估体系，综合评估生成视频的视觉质量、个性化相关度、用户满意度、惊喜度以及系统的响应效率。

课题目标：

（1）产出算法模型及源代码；

（2）产出CCF-A类论文1～2篇；

（3）申请发明专利1～2项；

（4）在应用场景中达到可行性验证。

6.端到端推荐大模型中的“价值定义”问题研究

课题背景：

以快手onerec为代表的端到端推荐大模型近年来在业内取得了突破式的落地进展，大幅提升了算力利用率并很好的缓解了原有推荐系统中多级漏斗系统的目标一致性损失问题。但这一技术框架的突破并未直接解决内容推荐领域reward定义难的问题，未来端到端推荐大模型进一步的迭代发展亟需研究解决内容推荐领域复杂的目标定义问题。

工业界广泛应用的推荐排序模块的传统范式是两阶段的，第一阶段通过大体量模型预估用户在多个维度上的满意度，第二阶段将多目标标量化作为最终排序依据，即多目标融合排序。工业界普遍采用的标量化方法是人工设计的启发式排序公式，排序公式应用成本低、调整灵活、可解释性强，但个性化和非线性空间都很有限。在前序的研究工作中，我们团队设计并落地了端到端模型化的多目标融合排序机制模型EMER，代替了传统的人工设计的启发式排序融合公式，目前EMER已全量推全，用户体验提升显著：快手极速版App：七日留存+0.196%，App停留时长+1.392%，单列短视频观看次数+1.044%；快手主App：七日留存+0.133%，App停留时长+1.199%，单列短视频观看次数+2.996%；同时我们使用EMER升级了OneRec的Reward Model，可提升App停留时长0.56%，留存有显著正向。

关于前序工作EMER：在真实的短视频推荐场景中，端到端机制模型落地的核心挑战是“价值定义”：用户的满意度难统一定义，即什么样的推荐结果是好的，这个用来牵引机制模型学习的“价值”很难定义。用户对一个短视频是否满意，其表达方式是个性化的、动态变化的，可以是完成播放、点赞，也可以是关注作者、评论等。在已落地的机制模型EMER中，我们定义了两种“价值”来牵引模型学习：

（1）“相对满意度”：定义“相对的好”，将用户并不统一、并不标准的满意度表达，转化为模型Label。基于业务洞察，在统一请求内，根据多好>单好>没正向反馈的比较关系构造样本对，计算基于Pairwise的“相对满意度”损失；

（2）“满意度逼近”：相对满意度仍然是不够完备的，比如多好比单好要好，但好多少呢，不太好量化，模型也就没办法学习到这部分信息。所以我们提出了“自我进化”的满意度逼近方案。具体做法是引入多个维度的AUC辅助Loss，约束模型在多维度用户满意度上的排序能力。并且根据新旧模型在同一个评估集合上的AUC相对优势，来计算动态AUC损失权重，约束模型始终往AUC全面更优“自我进化”。

机制模型在推荐系统中极为关键，它决定最终推出什么样的结果。而其中的“价值定义”仍然有较大探索价值和业务提升空间，目前较为清晰的探索方向有两个：

（1）系统中哪些信号更加能代表用户满意度，如何强调这些信号对模型学习的牵引。比如能直接体现用户满意度的问卷反馈信号，建模的核心挑战是数据稀疏且噪声较大；

（2）从单点价值优化，转变为长期价值或整体价值优化。当前价值定义仍然是pointwise的，如何考虑并定义setwise和listwise，甚至是sessionwise的价值。

建议研究方向：

（1）对于第一个探索方向，可以尝试采用“User Preference Alignment”的方式，将更能代表真实满意度的稀疏信号作为User Preference，对机制模型进行Alignment。我们在该方向已经做了一些尝试，有初步业务收益；

（2）对于第二个探索方向，除尝试“User Preference Alignment”方式外，可以探索将排序机制定义为一个连续决策过程，目标是最大化整体收益。在其中，生成式、RL、CoT等技术都有探索空间。

课题目标：

（3）产出算法模型及源代码；

（4）产出CCF-A类论文1～2篇；

（5）申请发明专利1～2项；

（6）应用场景效果提升：提升快手人均App使用时长0.2%。

7.面向用户意图理解的大模型增强推荐技术研究

课题背景：

推荐系统已深度融入数字生态，成为串联用户、商家与平台的核心纽带。然而，当前主流的工业级系统仍主要基于历史交互数据的共现统计和日志拟合目标进行优化，缺乏对用户真实意图的显式建模。这种依赖过往行为的策略容易陷入对有限偏好的过度拟合，难以感知用户兴趣的动态演进与潜在需求，不仅强化了信息茧房和长尾失衡问题，也制约了用户体验的提升，进而危及推荐生态的长期健康发展。不同于传统系统主要依赖用户的短期交互行为，大语言模型凭借其强大的长上下文理解能力和丰富的世界知识，可融合用户在长时间跨度内积累的丰富行为数据，从而在更宏观的时序维度上刻画兴趣演变。同时，其内在的推理能力还能预判用户需求的潜在变化，帮助系统突破仅基于短期反馈所导致的“信息茧房”局限

建议研究方向：

（1）探索在推荐链路的各个阶段引入大语言模型，实现用户兴趣理解、商品预测，并为结果生成用户友好的推荐解释；

（2）探索利用将LLM 预训练阶段编码的世界知识迁移至推荐模型中；

（3）探索利用思维链（chain-of-thought)技术用于推荐模型，实现先思考后推荐。

课题目标：

（4）产出算法模型及源代码；

（5）产出CCF-A类论文1～2篇；

（6）申请发明专利1～2项。

五、大模型应用

1.基于生成式大模型的自适应多码率算法研究

课题背景：

自适应多码率算法（ABR）的核心任务是从短视频或直播的多档位码率流中动态选择最优档位，直接影响播放流畅度、画质清晰度及带宽成本。该决策需综合实时网络带宽、终端缓存状态、设备性能等多维因素，并兼容用户对清晰度与流畅度的个性化偏好，实现差异化体验优化。传统启发式算法依赖主观规则组合输入参数，难以协同多目标并覆盖复杂场景需求。本课题希望利用生成式大模型架构进行多码率算法优化，整合多源影响因素与长期历史行为数据，以最终体验指标（如观看时长）为训练目标进行端到端的决策优化，利用大模型的复杂环境感知能力，实现清晰度、流畅度与成本间的动态精准权衡，通过大模型捕捉历史请求的时空关联性，构建连续观看过程的序列决策机制，提升个性化适配能力。从而突破传统规则限制，通过数据驱动决策满足多样化用户需求。

建议研究方向：

（1）探索并设计新的流媒体自适应多码率框架，使用生成式大模型直接面向最终业务指标进行端到端学习，实现档位决策效果的系统性提升；

（2）基于思维链 CoT 进行决策模型的白盒化，输出用于人群/视频建模的中间产物，提升对于用户行为、视频特征的理解，并辅助传统算法优化。

课题目标：

（1）CCF- A类论文一篇；

（2）产出算法模型以及源代码；

（3）申请发明专利一项；

（4）在快手点播、直播多码率场景上，达成可行性验证。

2.类人对话智能体与强化学习（AgenticRL）技术研究

课题背景：

在电商平台场景中，用户的决策路径多触点、长链路，传统的检索/推荐/客服难以承载更深层次的互动与信任构建。类人对话智能体可通过自然、连续、具备情感表达的交流，在导购咨询、内容陪伴、售后关怀等环节提供主动引导与个性化建议，有望提升转化率与复购，降低客服成本，并开辟陪伴式导购等新增长点。然而，现有技术仍存在关键短板：其一，拟人化“聪明度”不足，语境理解、情绪共情、礼仪与幽默感欠缺，易显机械化；其二，对用户与角色的深度个性化不够，难以结合用户画像、历史偏好与当下意图做细粒度决策；其三，缺乏稳定的长期记忆与跨会话一致性，无法延续关系与承诺；其四，多步规划与可解释推理能力不足，工具使用（如检索、比价、库存/物流查询、优惠计算等）不稳健、不可控。为此，亟需开展类人对话智能体与强化学习（AgenticRL）技术研究，将对话策略、规划执行与工具编排纳入统一的策略优化框架，利用用户反馈、业务指标与安全约束作为回报信号，迭代提升策略质量与可控性；同时建设记忆与画像服务、技能库与调用编排、在线评估与安全守护等基建，支撑在真实业务中的可规模化落地。

建议研究方向：

（1）强化学习驱动的目标导向多步规划与可控可靠工具编排；

（2）跨会话长期记忆与用户画像融合的个性化对话策略；

（3）人类反馈与业务回报联合学习的拟人化表达与安全约束。

课题目标：

（1）产出算法模型及源代码；

（2）产出CCF-A类论文1～2篇；

（3）申请发明专利1～2项；

（4）在应用场景中达到可行性验证。

六、大数据方向

1.大模型在大数据 Data Agent 的应用研究

课题背景：

传统数据分析报告依赖人工撰写，存在成本高、效率低、质量不稳定等问题，难以满足快速决策和实时分析的需求，且当前由于产出分析报告成本高、效率低的问题，分析报告只能服务公司高管，无法支持公司中层数据决策需求。基于大模型的数据分析报告自动生成技术，可以高效处理多源数据，快速输出标准化的分析报告，有效支持产品迭代、用户增长、内容运营等关键决策。这不仅能提升团队工作效率，也能为业务发展提供更及时、准确的数据支持。

当前相关技术或方法的不足目前KwaiBI（快手内部一站式数据分析平台）在分析报告自动生成方面有一些尝试，但仍存在以下关键不足：

（1）分析框架单一：当前分析报告仅支持基于异动数据识别的分析框架，且异动识别的方法也比较简单，无法识别数据中的分析框架知识，并结合分析框架并响应的分析解读；

（2）准确性不够：虽然当前做了大量的工程数据校验和修复逻辑，但数据正确性和结论正确性仍然无法保障，而在数据分析领域，数据和结论错误性是致命性的，会影响业务人员决策；

（3）上手门槛高：当前产出理想可用的分析报告，数据分析师同学需要深度介入，不断修改prompt来改变大模型行为，其上手门槛极高且产出不稳定，导致分析报告无法大规模推广使用。

建议研究方向：

（1）基于LLM技术栈，包括数据预处理、RAG检索增强、Chain of Thought推理、Python代码生成与执行、报告模板对齐等核心技术。通过构建数据分析Pipeline，确保分析逻辑的可追溯性与结果的准确性。同时引入SFT微调和RLHF技术，优化模型对业务术语的理解能力，提升报告生成的稳定性和专业性。最终打造一套端到端的智能分析报告生成平台，实现分析报告的高效、准确输出。

课题目标：

（1）产出算法模型及源代码；

（2）产出CCF-A类论文1~2篇；

（3）申请发明专利1~2项；

（4）应用场景效果提升：分析报告产出时间由周级降低至天级，内部落地2~3个业务场景。

2.大模型赋能行车记录数据POI信息提取

课题背景：

行车记录仪采集的轨迹和图像数据能够从空间场景、实体特征等维度提供直观且丰富的信息，是POI数据生产、评估与核实、虚假POI识别、过期POI挖掘的重要数据源。不仅为数据验真提供可视化依据，还能为算法挖掘提供多维度特征支撑，可推动POI数据质量的实质性提升。

当前相关技术或方法的不足：基于行车记录仪的 POI 信息提取，现有行业的技术方案一般分为标识牌识别、文本提取、POI 标识牌清洗、属性提取等多个独立算法任务，该方法面临来自数据源与场景复杂度的多重挑战，具体体现为以下三方面不足：

（1）复杂场景技术效果存在上限：高速行驶产生的动态模糊、逆光环境的光线干扰，以及艺术字、褪色等特殊样式的挂牌，都会直接影响关键信息识别精度，例如标识牌识别、OCR 文本提取模型的准确率会出现显著下降，难以满足高可靠性需求；

（2）数据标注不足导致泛化能力受限：针对长尾的POI类型，标注样本量普遍偏少，使得小模型缺乏足够的学习依据，无法适配多样化的现实场景；

（3）分拆式架构引发系统性瓶颈：当前串行拆分架构存在误差向后累积，动态适应性不足，维护不便等问题。

建议研究方向：

（1）构建统一的多模态大语言模型（Multimodal Large Language Model，MLLM）的行车记录仪视频理解框架，完成8B或更小的大模型训练，包括但不限于行车记录仪场景图像分布情况下的预训练任务构造，针对业务场景的后训练任务设计，包含图像差分（过期）、多目标理解与生成（多POI名称、品牌名、电话、标识牌识别）、景深理解（坐标还原）、POI是否存在等子任务，并兼顾推理性能。

课题目标：

（1）产出算法模型及源代码；

（2）产出CCF-A类论文1篇；

（3）申请发明专利1项；

（4）应用场景效果提升：解决30%的全库POI数据更新、新增、下线问题，解决信贷场景/大盘/本地生活场景70%的虚假POI问题。

点击“阅读原文”，下载【申请表】。

阅读原文

点我访问原文链接