日韩AV在线成人,在线免费观看岛国成人片,日韩美女在线不卡

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

用Go如何實(shí)現(xiàn)精準(zhǔn)統(tǒng)計(jì)文章字?jǐn)?shù)

大家好，我是站長(zhǎng) polarisxu。

公司主營(yíng)業(yè)務(wù)：成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。成都創(chuàng)新互聯(lián)公司推出西安免費(fèi)做網(wǎng)站回饋大家。

今天要聊的內(nèi)容應(yīng)該可以當(dāng)做一道面試題，你可以先想想該怎么實(shí)現(xiàn)。

統(tǒng)計(jì)字?jǐn)?shù)是一個(gè)很常見(jiàn)的需求，很多人印象最深的應(yīng)該是微博早些時(shí)候限制 140 字，而且邊輸入會(huì)邊統(tǒng)計(jì)剩余字?jǐn)?shù)。現(xiàn)在很多社區(qū)文章也會(huì)有字?jǐn)?shù)統(tǒng)計(jì)的功能，而且可以依據(jù)字?jǐn)?shù)來(lái)預(yù)估閱讀時(shí)間。比如 Go語(yǔ)言中文網(wǎng)就有這樣的功能。

01 需求分析

下手之前先分析下這個(gè)需求。從我個(gè)人經(jīng)驗(yàn)看，在實(shí)際面試中，針對(duì)一個(gè)面試題，你的分析過(guò)程，循序漸進(jìn)的解決方案，可以很好的展示你的思考過(guò)程。正所謂分析問(wèn)題、解決問(wèn)題。這會(huì)給你加分的。

我們采用類似詞法分析的思路分析這個(gè)需求。

一篇文章通常包含如下元素，我們也稱之為 token：

普通文字
標(biāo)點(diǎn)符號(hào)
圖片
鏈接(包含各種協(xié)議的鏈接)
代碼

其中普通文字通常會(huì)分為歐美和中日韓(CJK)，因?yàn)?CJK 屬于表意文字，和歐美字母的文字差異很大。同時(shí)這里還涉及到編碼的問(wèn)題。本文假設(shè)使用 UTF-8 編碼。

對(duì)于標(biāo)點(diǎn)符號(hào)，中文標(biāo)點(diǎn)和英文標(biāo)點(diǎn)也會(huì)很不一樣。

此外還有全角和半角的問(wèn)題。

根據(jù)以上分析，對(duì)于該需求作如下假定：

空格(包括換行)不算字?jǐn)?shù);
HTML 標(biāo)簽需要剔除;
編碼方式：假定為 UTF-8 編碼;
標(biāo)點(diǎn)符號(hào)算不算做字?jǐn)?shù)。如果算，像括號(hào)這樣的按 2 個(gè)字算;
鏈接怎么算?一個(gè)鏈接約定為 1 個(gè)字可能更合適，大概閱讀時(shí)只是把它當(dāng)鏈接，而不太會(huì)關(guān)心鏈接由什么字母組成;
圖片不算做字?jǐn)?shù)，但如果計(jì)算閱讀時(shí)間，可能需要適當(dāng)考慮圖片的影響;
對(duì)于技術(shù)文章，代碼是最麻煩的。統(tǒng)計(jì)代碼字?jǐn)?shù)感覺(jué)是沒(méi)多大意義的。統(tǒng)計(jì)代碼行數(shù)可能更有意義;

本文的解決方案針對(duì)以上的假定進(jìn)行。

02 Go 語(yǔ)言實(shí)現(xiàn)

先看最簡(jiǎn)單的。

純英文

根據(jù)以上分析，如果文章只包含普通文本且是英文，也就是說(shuō)，每個(gè)字(單詞)根據(jù)空格分隔，統(tǒng)計(jì)是最簡(jiǎn)單的。

 
 
 
 
  
  
  
  func TotalWords(s string) int { 
  
  
  
   n := 0 
  
  
  
   inWord := false 
  
  
  
   for _, r := range s { 
  
  
  
    wasInWord := inWord 
  
  
  
    inWord = !unicode.IsSpace(r) 
  
  
  
    if inWord && !wasInWord { 
  
  
  
     n++ 
  
  
  
    } 
  
  
  
   } 
  
  
  
   return n 
  
  
  
  }

還有一種更簡(jiǎn)單的方式：

 
 
 
 
  
  
  
  len(strings.Fields(s))

不過(guò)看 strings.Fields 的實(shí)現(xiàn)，性能會(huì)不如第一種方式。

回顧上面的需求分析，會(huì)發(fā)現(xiàn)這個(gè)實(shí)現(xiàn)是有 Bug 的。比如下面的例子：

 
 
 
 
  
  
  
  s1 := "Hello,playground" 
  
  
  
  s2 := "Hello, playground"

用上面的實(shí)現(xiàn)，s1 的字?jǐn)?shù)是 1，s2 的字?jǐn)?shù)是 2。它們都忽略了標(biāo)點(diǎn)符號(hào)。而且因?yàn)閷?xiě)法的多樣性(不規(guī)范統(tǒng)一)，導(dǎo)致計(jì)算字?jǐn)?shù)會(huì)有誤差。所以我們需要對(duì)寫(xiě)法進(jìn)行規(guī)范。

規(guī)范排版

其實(shí)和寫(xiě)代碼要有規(guī)范一樣，文章也是有規(guī)范的。比如出版社對(duì)于一本書(shū)的排版會(huì)有明確的規(guī)定。為了讓我們的文章看起來(lái)更舒服，也應(yīng)該遵循一定的規(guī)范。

這里推薦一個(gè) GitHub 上的排版指南：《中文文案排版指北》，它的宗旨，統(tǒng)一中文文案、排版的相關(guān)用法，降低團(tuán)隊(duì)成員之間的溝通成本，增強(qiáng)網(wǎng)站氣質(zhì)。這個(gè)規(guī)范開(kāi)頭關(guān)于空格的一段話很有意思：

有研究顯示，打字的時(shí)候不喜歡在中文和英文之間加空格的人，感情路都走得很辛苦，有七成的比例會(huì)在 34 歲的時(shí)候跟自己不愛(ài)的人結(jié)婚，而其余三成的人最后只能把遺產(chǎn)留給自己的貓。畢竟愛(ài)情跟書(shū)寫(xiě)都需要適時(shí)地留白。

建議大家可以看看這個(gè)指北，一些知名的網(wǎng)站就是按照這個(gè)做的。

因?yàn)?GCTT 的排版在這個(gè)規(guī)范做，但人為約束不是最好的方法，所以我開(kāi)發(fā)了一個(gè) Go 工具：https://github.com/studygolang/autocorrect，用于自動(dòng)給中英文之間加入合理的空格并糾正專用名詞大小寫(xiě)。

所以為了讓字?jǐn)?shù)統(tǒng)計(jì)更準(zhǔn)確，我們假定文章是按一定的規(guī)范書(shū)寫(xiě)的。比如上面的例子，規(guī)范的寫(xiě)法是 s2 := "Hello, playground"。不過(guò)這里標(biāo)點(diǎn)不算作字?jǐn)?shù)。

剛?cè)ノ⒉┥显嚵艘幌拢l(fā)現(xiàn)微博的字?jǐn)?shù)計(jì)算方式有點(diǎn)詭異，竟然是 9 個(gè)字。

測(cè)試一下發(fā)現(xiàn)，它直接把兩個(gè)英文字母算作一個(gè)字(兩個(gè)字節(jié)算一個(gè)字)。而漢字是正常的。大家可以想想微博是怎么實(shí)現(xiàn)的。

中英文混合

中文不像英文，單詞之間沒(méi)有空格分隔，因此開(kāi)始的那兩種方式不適合。

如果是純中文，我們?cè)趺从?jì)算字?jǐn)?shù)呢?

在 Go 語(yǔ)言中，字符串使用 UTF-8 編碼，一個(gè)字符用 rune 表示。因此在標(biāo)準(zhǔn)庫(kù)中查找相關(guān)計(jì)算方法。

 
 
 
 
  
  
  
  func RuneCountInString(s string) (n int)

這個(gè)方法能計(jì)算字符串包含的 rune(字符)數(shù)，對(duì)于純中文，就是漢字?jǐn)?shù)。

 
 
 
 
  
  
  
  str := "你好世界" 
  
  
  
  fmt.Println(utf8.RuneCountInString(str))

以上代碼輸出 4。

然而，因?yàn)楹芏鄷r(shí)候文章會(huì)中英文混合，因此我們先采用上面的純英文的處理方式，即：strings.Fields()，將文章用空格分隔，然后處理每一部分。

 
 
 
 
  
  
  
  func TotalWords(s string) int { 
  
  
  
   wordCount := 0 
  
  
  
     
  
  
  
   plainWords := strings.Fields(s) 
  
  
  
   for _, word := range plainWords { 
  
  
  
    runeCount := utf8.RuneCountInString(word) 
  
  
  
    if len(word) == runeCount { 
  
  
  
     wordCount++ 
  
  
  
    } else { 
  
  
  
     wordCount += runeCount 
  
  
  
    } 
  
  
  
   } 
  
  
  
   
  
  
  
   return wordCount 
  
  
  
  }

增加如下的測(cè)試用例：

 
 
 
 
  
  
  
  func TestTotalWords(t *testing.T) { 
  
  
  
   tests := []struct { 
  
  
  
    name  string 
  
  
  
    input string 
  
  
  
    want  int 
  
  
  
   }{ 
  
  
  
    {"en1", "hello,playground", 2}, 
  
  
  
    {"en2", "hello, playground", 2}, 
  
  
  
    {"cn1", "你好世界", 4}, 
  
  
  
    {"encn1", "Hello你好世界", 5}, 
  
  
  
    {"encn2", "Hello 你好世界", 5}, 
  
  
  
   } 
  
  
  
   for _, tt := range tests { 
  
  
  
    t.Run(tt.name, func(t *testing.T) { 
  
  
  
     if got := wordscount.TotalWords(tt.input); got != tt.want { 
  
  
  
      t.Errorf("TotalWords() = %v, want %v", got, tt.want) 
  
  
  
     } 
  
  
  
    }) 
  
  
  
   } 
  
  
  
  }

發(fā)現(xiàn) en1 和 encn1 測(cè)試不通過(guò)，因?yàn)闆](méi)有按照上面說(shuō)的規(guī)范書(shū)寫(xiě)。因此我們通過(guò)程序增加必要的空格。

 
 
 
 
  
  
  
  // AutoSpace 自動(dòng)給中英文之間加上空格 
  
  
  
  func AutoSpace(str string) string { 
  
  
  
   out := "" 
  
  
  
   
  
  
  
   for _, r := range str { 
  
  
  
    out = addSpaceAtBoundary(out, r) 
  
  
  
   } 
  
  
  
   
  
  
  
   return out 
  
  
  
  } 
  
  
  
   
  
  
  
  func addSpaceAtBoundary(prefix string, nextChar rune) string { 
  
  
  
   if len(prefix) == 0 { 
  
  
  
    return string(nextChar) 
  
  
  
   } 
  
  
  
   
  
  
  
   r, size := utf8.DecodeLastRuneInString(prefix) 
  
  
  
   if isLatin(size) != isLatin(utf8.RuneLen(nextChar)) && 
  
  
  
    isAllowSpace(nextChar) && isAllowSpace(r) { 
  
  
  
    return prefix + " " + string(nextChar) 
  
  
  
   } 
  
  
  
   
  
  
  
   return prefix + string(nextChar) 
  
  
  
  } 
  
  
  
   
  
  
  
  func isLatin(size int) bool { 
  
  
  
   return size == 1 
  
  
  
  } 
  
  
  
   
  
  
  
  func isAllowSpace(r rune) bool { 
  
  
  
   return !unicode.IsSpace(r) && !unicode.IsPunct(r) 
  
  
  
  }

這樣可以在 TotalWords 函數(shù)開(kāi)頭增加 AutoSpace 進(jìn)行規(guī)范化。這時(shí)結(jié)果就正常了。

處理標(biāo)點(diǎn)和其他類型

以上例子標(biāo)點(diǎn)沒(méi)計(jì)算在內(nèi)，而且如果英文和中文標(biāo)點(diǎn)混合在一起，情況又復(fù)雜了。

為了更好地實(shí)現(xiàn)開(kāi)始的需求分析，重構(gòu)以上代碼，設(shè)計(jì)如下的結(jié)構(gòu)：

 
 
 
 
  
  
  
  type Counter struct { 
  
  
  
   Total     int // 總字?jǐn)?shù) = Words + Puncts 
  
  
  
   Words     int // 只包含字符數(shù) 
  
  
  
   Puncts    int // 標(biāo)點(diǎn)數(shù) 
  
  
  
   Links     int // 鏈接數(shù) 
  
  
  
   Pics      int // 圖片數(shù) 
  
  
  
   CodeLines int // 代碼行數(shù) 
  
  
  
  }

同時(shí)將 TotalWords 重構(gòu)為 Counter 的 Stat 方法，同時(shí)記錄標(biāo)點(diǎn)數(shù)：

 
 
 
 
  
  
  
  func (wc *Counter) Stat(str string) { 
  
  
  
   wc.Links = len(rxStrict.FindAllString(str, -1)) 
  
  
  
   wc.Pics = len(imgReg.FindAllString(str, -1)) 
  
  
  
   
  
  
  
   // 剔除 HTML 
  
  
  
   str = StripHTML(str) 
  
  
  
   
  
  
  
   str = AutoSpace(str) 
  
  
  
   
  
  
  
   // 普通的鏈接去除（非 HTML 標(biāo)簽鏈接） 
  
  
  
   str = rxStrict.ReplaceAllString(str, " ") 
  
  
  
   plainWords := strings.Fields(str) 
  
  
  
   
  
  
  
   for _, plainWord := range plainWords { 
  
  
  
    words := strings.FieldsFunc(plainWord, func(r rune) bool { 
  
  
  
     if unicode.IsPunct(r) { 
  
  
  
      wc.Puncts++ 
  
  
  
      return true 
  
  
  
     } 
  
  
  
     return false 
  
  
  
    }) 
  
  
  
   
  
  
  
    for _, word := range words { 
  
  
  
     runeCount := utf8.RuneCountInString(word) 
  
  
  
     if len(word) == runeCount { 
  
  
  
      wc.Words++ 
  
  
  
     } else { 
  
  
  
      wc.Words += runeCount 
  
  
  
     } 
  
  
  
    } 
  
  
  
   } 
  
  
  
   
  
  
  
   wc.Total = wc.Words + wc.Puncts 
  
  
  
  } 
  
  
  
   
  
  
  
  var ( 
  
  
  
   rxStrict = xurls.Strict() 
  
  
  
   imgReg   = regexp.MustCompile(`]*>`) 
  
  
  
   stripHTMLReplacer = strings.NewReplacer("\n", " ", "
", "\n", "
", "\n", "", "\n") 
  
  
  
  ) 
  
  
  
   
  
  
  
  // StripHTML accepts a string, strips out all HTML tags and returns it. 
  
  
  
  func StripHTML(s string) string { 
  
  
  
   // Shortcut strings with no tags in them 
  
  
  
   if !strings.ContainsAny(s, "<>") { 
  
  
  
    return s 
  
  
  
   } 
  
  
  
   s = stripHTMLReplacer.Replace(s) 
  
  
  
   
  
  
  
   // Walk through the string removing all tags 
  
  
  
   b := GetBuffer() 
  
  
  
   defer PutBuffer(b) 
  
  
  
   var inTag, isSpace, wasSpace bool 
  
  
  
   for _, r := range s { 
  
  
  
    if !inTag { 
  
  
  
     isSpace = false 
  
  
  
    } 
  
  
  
   
  
  
  
    switch { 
  
  
  
    case r == '<': 
  
  
  
     inTag = true 
  
  
  
    case r == '>': 
  
  
  
     inTag = false 
  
  
  
    case unicode.IsSpace(r): 
  
  
  
     isSpace = true 
  
  
  
     fallthrough 
  
  
  
    default: 
  
  
  
     if !inTag && (!isSpace || (isSpace && !wasSpace)) { 
  
  
  
      b.WriteRune(r) 
  
  
  
     } 
  
  
  
    } 
  
  
  
   
  
  
  
    wasSpace = isSpace 
  
  
  
   
  
  
  
   } 
  
  
  
   return b.String() 
  
  
  
  }

代碼過(guò)多的細(xì)節(jié)不討論。此外，關(guān)于文章內(nèi)的代碼行數(shù)統(tǒng)計(jì)未實(shí)現(xiàn)(目前沒(méi)有想到特別好的方法，如果你有，歡迎交流)。

03 總結(jié)

通過(guò)本文的分析發(fā)現(xiàn)，精準(zhǔn)統(tǒng)計(jì)字?jǐn)?shù)沒(méi)那么容易，這里涉及到很多的細(xì)節(jié)。

當(dāng)然，實(shí)際應(yīng)用中，字?jǐn)?shù)不需要那么特別精準(zhǔn)，而且對(duì)于非正常文字(比如鏈接、代碼)怎么處理，會(huì)有不同的約定。

本文涉及到的完整代碼放在 GitHub：https://github.com/polaris1119/wordscount。

本文轉(zhuǎn)載自微信公眾號(hào)「polarisxu」，可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系polarisxu公眾號(hào)。

新聞標(biāo)題：用Go如何實(shí)現(xiàn)精準(zhǔn)統(tǒng)計(jì)文章字?jǐn)?shù)
地址分享：http://www.5511xx.com/article/djohdji.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

其他資訊