姓名: 赵宇 职位: 创始人 兼首席技术官CTO 个人/团队介绍: ·团队职能:公司自研文档智能大模型DocMind的核心技术开发和迭代,研发团队的管理。 ·工作经历: 医院/军工/政府等项目技术专家顾问 中国移动-技术主管 京东大数据-技术主管 易代储(十亿级)物流独角兽合伙人/CTO 吖咪科技(千万级用户) CTO
在企业级文档处理中,单独的大语言模型常因“幻觉”问题导致理解偏差,难以精准处理文本、表格、图像等非结构化数据,影响文档分析的准确性和事实还原度,尤其在专业场景和严肃商业场景下,这一痛点尤为突出。
司马阅(smartread)通过构建企业级AI智慧大脑,采用双模型机制,有效解决了大语言模型的“幻觉”问题。自研的文档智能大模型DocMind,能够精准处理各类非结构化数据,还原文档阅读顺序和关联语义,为大语言模型提供更高质量的语料。通过DocMind与大语言模型的结合,显著提升了复杂文档的理解能力,实现了更精准的分析和事实还原。
司马阅在文档分析精准度和事实还原方面表现卓越,特别适合专业场景和严肃商业场景使用。已在企业广泛落地,服务了多个行业,展现出强大的跨行业应用能力。此外,司马阅还荣获了多项荣誉,包括入选百度AI生态首批合作伙伴、2024年成都市人工智能生态企业榜等,充分证明了其技术实力和市场认可度。其双模型机制的创新性设计,为文档智能处理领域树立了新的标杆。
20250327
新一代信息技术
【先进性】 1、NLP(自然语言技术)+ML(机器学习技术)+IDP(文档智能技术),能识别和理解复杂文档并将非结构化数据转化为结构化数据。 2、RAG(Retrieval-Augmented Generation )搜索增强技术,结合检索式和生成式方法的自然语言处理技术,以实现更高效、更准确的信息检索和生成。 3、大语言模型(LLM)技术,基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。
【关键技术指标】 准确率: 1、专业领域(专业术语)文档正确识别率定向训练可达95%-100%,且可溯源数据。 2、自然语言交互回答正确率可达 95%以上。
可扩展性: 1、支持常见文档格式分析,doc、docx、txt、html、pdf、ppt、pptx。 2、平台应具备良好的可扩展性,能够适应未来技术升级和新功能添加的需求。
用户交互体验: 开箱即用,使非专业人员也能轻松使用,AI理解人类自然语言。
安全性和隐私保护: 本地私有部署,所有上传的文档和数据都得到严格的保护,防止未授权访问和数据泄露。-技术优势的可持续性 技术可实现风险 司马阅的DocMind文档智能大模型基于Transformer结构,融合了深度学习、自然语言处理(NLP)和计算机视觉(CV)等技术,能够处理富文本文档中的复杂结构和视觉信息,提高信息抽取的准确性。这种技术架构已经在多个实际应用场景中得到了验证,如法律、科研、咨询等对文档精度要求较高的领域。此外,司马阅团队凭借十年深厚的技术积累,涵盖知识图谱、计算机视觉、自然语言处理、机器学习、大数据和文档智能处理等领域,为模型的持续优化和改进提供了坚实的基础。
技术可靠性风险 DocMind模型在与主流大模型对比测评中,在更复杂的文档「分析精准度、事实还原」方面具有明显优势。司马阅通过控制大语言模型的幻觉,确保AI回答的精准度更高,让AI在企业严肃场景中更加可信、可靠、可用。此外,司马阅成功完成国家互联网信息办公室的模型算法备案,备案号为510104225097201240011号,这标志着其技术实力得到了国家层面的认可,是技术创新和合规性的重要证明。
知识产权侵权风险 司马阅作为国内AI文档智能领域的领先品牌,其自研的DocMind文档智能大模型具有自主知识产权。司马阅团队在技术研发过程中,注重知识产权保护,确保技术的合法性和合规性。此外,司马阅是百度AI生态的首批合作伙伴,也是知乎课堂官方推荐的职场必备AI工具之一,同时入选了「2024 CHINA AIGC 100」榜单,这些都为其技术的合法性和可靠性提供了有力支持。
应用推广可行性风险 司马阅的DocMind模型已经成功应用于多个行业,如招投标、广告营销、工程监理、电信通讯、生产制造、物流供应链、食品、宠物医疗、法律等。这些应用案例表明,DocMind模型具有广泛的应用前景和推广可行性。司马阅通过打造以企业文档数据为核心场景的AI数字员工(AI Agent),帮助企业提升员工生产力及客户满意度。
市场竞争风险 在市场竞争方面,司马阅的DocMind模型具有明显的领先优势。其在复杂文档处理的精确度上领先于/主流大模型。此外,司马阅的企业级AI服务通过提供定制化的解决方案,满足不同企业的具体需求,进一步增强了其市场竞争力。
政策风险 国家对人工智能技术的发展给予了大力支持。2025年1月,国家发改委等三部门印发《国家数据基础设施建设指引》,支持各地积极建设政务服务大模型,推动政务服务智能化。司马阅的DocMind模型符合国家政策导向,有望在政策支持下获得更多的发展机会。
团队风险 司马阅团队在人工智能、大数据等前沿技术领域拥有十年深厚的技术积累,涵盖知识图谱、计算机视觉、自然语言处理、机器学习、大数据和文档智能处理等多个领域。团队的稳定性和专业性为DocMind模型的持续发展提供了有力保障。
技术优势的不可替代性
专业领域的深度理解 DocMind模型能够与特定领域的知识库深度结合,显著提升对专业文档的理解水平。这种深度理解能力使得DocMind在处理专业文档时,能够提供更准确、更专业的分析和建议,这是/通用大模型难以替代的。
多模态融合技术 DocMind融合了文本和视觉信息,能够处理包含图像、表格和文字的复杂文档,提供更全面的文档理解。这种多模态融合技术使得DocMind在处理富文本文档时,能够更好地整合多模态信息,确保抽取的信息全面且准确,这是/单一模态模型所不具备的。
持续学习能力 DocMind具备持续学习的能力,基于增量学习不断优化自身性能。这种持续学习能力使得DocMind能够随着时间的推移不断改进和适应新的文档类型和应用场景,保持技术的领先性和竞争力。
企业级应用的定制化 司马阅的企业级AI服务通过打造以企业文档数据为核心场景的AI数字员工(AI Agent),提供更加贴合企业实际应用场景的解决方案,这是/通用AI工具难以替代的。
数据安全和隐私保护 司马阅在数据安全和隐私保护方面投入了大量资源,建立了银行级数据安全体系,采用加密传输方式,确保用户数据不会泄漏任何信息。
技术水平 司马阅基于自研的DocMind文档智能大模型,该模型在国产AI文档阅读产品测评中表现突出,相较于讯飞、网易、WPS、360旗下同类AI产品具有明显优势。其技术水平体现在能够真正读懂、读准文档,从复杂文档中快速提取有效信息并进行智能分析判断,支持复杂图表文档的分析总结,可分析图表数据,还支持PDF、DOC、DOCX、TXT、HTML等多种文档格式的解析,以及100多种跨语言提问,还能自定义输入/输出和专家提示词,精准分析专业文档,这表明其在自然语言处理、文档理解与分析等核心技术方面已达到较高水准,能够满足不同用户在多种场景下的多样化需求。
工艺流程 从用户使用角度来看,司马阅的工艺流程较为简洁高效。用户可轻松上传文档,系统便能快速响应,对文档进行分析处理并给出详细答案。无论是阅读论文报告、领导讲话等长篇文件,还是处理合同、简历等专业文档,都能在短时间内完成关键问题的分析,帮助用户节省大量时间和精力。此外,其多文档、跨文档分析总结功能,能够智能提炼不同文档之间的关联性和共同点,为用户提供更全面的视角和深度理解,从而助力用户做出更明智的决策,这一流程不仅体现了技术的实用性,也彰显了其在信息整合与深度挖掘方面的工艺优势。
配套资源 在配套资源方面,司马阅具备多方面的支持。首先,每天给用户提供100次提问机会(单文档50次+文档库50次),这极大地降低了用户的使用门槛,满足了办公人士、学习者等日常使用需求,有利于产品的快速推广和用户群体的扩大。其次,司马阅在数据安全和隐私保护方面投入了大量资源,建立了银行级数据安全体系,采用加密传输方式,确保用户数据不会泄漏任何信息,用户拥有数据的唯一所有权和控制权,可随时删除任何文件。同时,作为百度AI生态的合作伙伴,其在安全性和合规性方面具有有力保障,这为用户提供了更加放心的使用环境。此外,司马阅还针对企业用户提供了基于DocMind文档智能大模型的「AI数字员工、API服务、场景定制」等企业服务,能够满足企业在不同场景下的个性化需求,进一步拓展了产品的应用范围和市场空间。
技术生命周期 从技术生命周期的角度来看,司马阅目前正处于成长期向成熟期过渡的阶段。一方面,其在技术水平、工艺流程和配套资源等方面已具备较强的竞争力,能够为用户提供稳定、高效、安全的文档分析服务,市场认可度和用户口碑逐渐提升,产品功能不断完善和优化,用户数量也在持续增长,这些都表明其技术已较为成熟,并在市场上占据了一定的份额。另一方面,随着人工智能技术的不断发展和应用场景的不断拓展,司马阅仍有较大的发展潜力和创新空间。例如,未来可以进一步提升模型的准确性和分析深度,拓展支持的文档格式和语言种类,加强与/技术的融合创新,如与大数据、云计算等技术相结合,为用户提供更加智能化、个性化的文档分析解决方案,从而推动技术向更成熟、更高级的阶段发展,延长技术生命周期,保持在市场中的领先地位。
知识产权情况: 专利,商标,版权 成果权属: 独占 知识产权数量: 12 知识产权描述: 10个软著: 餐饮大数据分析系统V1.0 餐饮品牌分析系统V1.0 经济数据查询平台V1.0 品牌门店数据查询平台V1.0 商业数据查询平台V1.0 商业智库采集系统V1.0 司马阅AI文档分析软件V1.0 行业数据分析系统V1.0 行业新闻系统V1.0 研报大数据平台V1.0 1个商标: 司马阅 该技术潜在应用场景及目标客户: 基于自研文档智能大模型,专注企业文档、数据的AI落地场景。 应用场景多样化:AI客服、AI培训、AI律师、AI人事、AI咨询师、AI研报分析师、AI方案撰写等。 目标客户:1.有大量反复沟通岗位的沟通密集型企业。2.有大量数据资产,有大量繁杂文档需要处理的信息密集型企业。 如以下行业企业:
用户可在官网0代码创建AI数字员工,只需上传文档,即可完成AI数字员工的训练。产品有三大核心能力:企业信息问答、专业文档分析、个性内容再创作。
该产品最大的特点是在复杂文档处理上,精准度领先同行,可用于严肃的商业场景。产品可发布到微信客服、企业微信、飞书、钉钉等多平台,用户可一键发起对话,AI数字员工如真人般全自动快速回复。
合作方式: 提供技术服务,提供技术咨询,技术联合研发,股权投资合作 合作方式描述: ·第一类理想的合作机构为500强大型国央企,为其提供技术服务,提升业务流程自动化、智能化水平,帮助其进行数据资产管理,减少数据孤岛。 ·第二类理想的合作机构为100人以下的中小企业,为其提供公司企业级AI产品,助其降本增效,完成数智化转型。 ·第三类理想的合作机构为企业服务行业,如咨询行业、培训行业、高新技术园区等,为其提供标品,助其资源变现,互惠互利。 ·第四类理想的合作方式股权投资合作,希望是机构投资,有雄厚的资金实力,最好拥有丰富的上下游资源。通过股权合作实现双方的深度绑定与利益共享。 融资情况及需求: 融资阶段:天使轮,融资需求:500w
司马阅是基于文档智能、LLM构建的企业级AI智慧大脑,采用双模型机制,解决单独大语言模型的“幻觉”问题。自研文档智能大模型DocMind,可精准地处理文本、表格、图像等非结构化数据,还原文档阅读顺序和关联语义,为大语言模型提供更有价值的「语料」。DocMind文档模型与大语言模型结合,会更容易理解各类复杂文档。
「司马阅」在更复杂的文档「分析精准度、事实还原」方面表现更明显,优势领先,更适合专业场景、严肃商业场景使用。目前该项目已在企业落地,有注册使用的企业400+家,已服务了招投标、广告营销、工程监理、电信通讯、生产制造、物流供应链、食品、宠物医疗、法律等行业。
奖项: 入选百度AI生态首批合作伙伴 入选2024年成都市人工智能生态企业榜 入选2024 CHINA AIGC 100榜单 首届全国“人工智能+”行业应用创新大赛三等奖。
