關鍵詞:模糊地址識別 文本相似度計算 最小編輯距離法 支持向量機 諧音字識別
摘要:由于受到客戶方言及語言習慣因素影響,加之客戶服務中心客服坐席手工記錄客戶地址的形式不統一,難以實現精確篩選細化到小區、村莊級別的相近地址,支撐定位客戶反映的頻繁停電等問題。該文提出了一種地址模糊匹配模型,根據地址信息的文本和拼音形式,利用最小編輯距離算法量化非結構化客戶地址間的偏差程度。進一步應用支持向量機分類技術,結合地址文本信息和拼音信息的編輯距離計算結果,實現對相近地址的有效識別。試驗結果表明,該方法可以克服諧音字對地址識別的影響,具有計算速度快且識別能力強的優勢,能夠支撐篩選頻繁停電地址等場景應用。另外,通過網格搜索法的應用,實現了支持向量機分類器主要參數的優化,提升了模糊地址匹配的精度。
電力大數據雜志要求:
{1}文中小標題一般分為三級,第一級標題用“一、”、“二、”、“三、”標示;第二級標題用“1.”、“2.”、“3.”標示,第三級標題用“(1)”、“(2)”、“(3)”標示,每級標題序號前均空兩格。
{2}嚴禁一稿多投遞;如果一個月未獲錄用通知,作者可自行處理稿件。
{3}來稿請勿一稿多投,編輯部有權對采用的稿件進行部分修改或者刪減。
{4}以單字母方式標識以下各種參考文獻類型:普通圖書 [ M ],會議論文 [C],報紙文章 [N],期刊文章 [J],學位論文 [D],報告 [R],標準 [S],專利〔P〕,匯編 [G],檔案 [B],古籍 [O],參考工具 [K]。
{5}來稿應附3~8個關鍵詞。附200字左右的結構式摘要(理論研究不要寫成結構式摘要),內容包括目的、方法、結果、結論。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社