最近全国各地政府都在谋划发展人工智能和机器人,试图把这两项作为新的产业支柱,新的经济增长点。没有那个地方政府愿意错过人工智能产业的机遇,先发者希望保持优势,后发者希望迎头赶上。总之,大家对AI的发展都十分迫切。 目前可用于大模型训练的中文数据在数量和质量上存在短缺。语料数据库规模不足、质量参差不齐、缺乏多样性,数据采集面临诸多合规性困难,整体导致大模型训练的效率与质量不高,制约AI应用发展。对于企业来讲,谁会愿意把自己的核心技术数据库全盘托出给大模型训练?这是不可能的,至少短期内会是这样的,政府的数据库也不可能对外开放,供大模型训练,因为会泄露公民的隐私信息。因此,这些大模型用来训练的多是垃圾数据,所以得出的结果很多都是错误的。举个例子,我用目前流行的中文大模型deepseek、豆包、文心一言、kimi等来搜索有关打印机维修的文章,结果都是些没用的信息,因为打印机企业不会分享他们的维修经验。也许有人会说我用的是免费版,如果用付费的结果不一样,我想不一定,虽然我不是付费用户,但我估计结果好不了多少。 如果政府立法强制企业分享自己的核心数据库,那么会有很大的风险,毕竟与监管部门比起来,黑客的技术能力可要强大得多。道高一尺魔高一丈。 未来人工智能的发展会怎样?接下来的路怎么走?搬个板凳坐下来,慢慢看戏。
|