“我就怕一到你那边,我一身又变重了!”徐勇笑🜷道。

    “🀯⛷🟆徐哥,你这是怕我往你身上塞黄金吗?”陈义哲打趣道。

    “真的?那我这次可得顺🝸🏻🟖便带个麻袋过去才行!🋹”徐勇笑💣📬🝼道。

    “只要你来,你就是开着大货车🛑🛧过来也行!”陈🋹义哲道。

    9月底的时候,徐勇果然来鹏城了。

    陈义哲带🕷🎎着徐勇参观了dss项目目前的情况。

    长达一年多的🊃时间里,徐勇陆陆续续发来了大量的医🅔院临床数据,而dss项目组多达0个人的技术人员就一直在做标准化数据的工作。

    目前夏梦已经在陈义哲的方案设计下,初步开发了支持阑尾炎,肝结核,胃结核等几项特殊疾病的dss🎈🏇🗾。

    “怪不得搜夏引擎的技术🝸🏻🟖让百度技术团队惊为人,看来夏梦互联网内部是人才济济🍣🉹啊。”徐勇感叹道。

    “呵呵,百度的技术也🄌🟘不差👩🋝🚑,🜃⛂🗦你看ggle都被百度挡在国门外,现在ggle也只能曲线入华。”陈义哲笑道。

    徐勇摇了摇头,道,“句真心话,百度和ggle还是有一定的差距的。只是在国内市场,百度占了时地利,这其实是‘百度更懂中文’地一个集🇻🝯中体现。就简单地分词,百度🁼当年做分词,先从一个人工编辑号地字典开始,用这个字典跑一些网页,观察里面地badase。”

    “可能是分词过细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些badase,如此往复,直到有🅎满意的结果。上线应用,发现有新的badase就再研究加规则,当然也有自动流程发现和确认如“人艰不拆”之类的新词!”

    “徐哥,想不到🙸你🃥🙽🏶这个医药出身的也懂得这其中的技术!”陈义哲笑🞜道。

    “都在这一行干了五年了,没吃过猪肉,也见过猪跑。”徐勇自嘲道,紧接着他继续道,“ggle和百度最大😟🂦的区别,就是g🋁gle更加强调技术,它做分词则是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。”

    “解题思路就是把所有抓到的中文网页往apredue裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升🛮☊♗就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬🅏念的简单问题!”

    “其实这也是ggle不懂中文的问题,因为它不需要中文语言专家的参与!同时这也就是ggle做实时翻译的思路。”陈义哲接着道,“不过这种方法虽然简单,看似没有什么秘密可言,可是首先,ggle得先有这么多的网页数据,还得有大机群,有分布计算框架,还有可复用的模型……这点套在dss其实也一样,dss也需要大数据,计算的模型,看似简单💆,但是其实复杂无比!”

    “这是必然的,毕竟医学上的🜃⛂🗦知识太复杂👔🈦🀠了,做dss项目往往需要考虑非常多的患者因素,如症状、体征、实验室检查数据、家族史、🁘基因、流行病学资料、现有的医学文献等等。同时新发表的临床研究数以万计,质量参差不齐,这些大量的数据导致了即使dss开发出来,最终维护上仍会存在巨大困难。”