OCR of Hand-written Data using SVM

จาก Morange Wiki

วัตถุประสงค์

  • เราจะทบทวนข้อมูล OCR ที่เขียนด้วยมือ แต่มี SVM แทน kNN


OCR of Hand-written Digits ใน kNN เราใช้ความเข้มพิกเซลโดยตรงเป็นเวกเตอร์คุณลักษณะ ในครั้งนี้เราจะใช้ Histogram ของการไล่ระดับสี Oriented (HOG) เป็นพาหะคุณลักษณะ
ที่นี่ก่อนที่จะหา HOG เรา deskew ภาพโดยใช้ช่วงเวลาที่สั่งซื้อของที่สอง ดังนั้นก่อนที่เรากำหนด deskew ฟังก์ชั่น () ซึ่งจะนำภาพหลักและ deskew มัน ด้านล่างนี้คือ deskew () ฟังก์ชัน

 def deskew(img):
     m = cv2.moments(img)
     if abs(m['mu02']) < 1e-2:
         return img.copy()
     skew = m['mu11']/m['mu02']
     M = np.float32([[1, skew, -0.5*SZ*skew], [0, 1, 0]])
     img = cv2.warpAffine(img,M,(SZ, SZ),flags=affine_flags)
  return img

ภาพด้านล่างแสดงให้เห็นข้างต้นฟังก์ชั่น deskew นำไปใช้กับภาพได้เลย ภาพซ้ายเป็นภาพต้นฉบับและภาพขวาเป็นภาพ deskew

มีข้อผิดพลาดในการสร้างรูปย่อ: ไฟล์สูญหาย

ต่อไปเราต้องไป HOG อธิบายของแต่ละเซลล์ เพื่อที่เราจะพบอนุพันธ์โชเบลของแต่ละเซลล์ใน X และ Y ทิศทาง แล้วหาขนาดและทิศทางของพวกเขาจากการไล่ระดับสีในแต่ละพิกเซล การไล่ระดับสีนี้ไท 16 ค่าจำนวนเต็ม แบ่งภาพนี้เพื่อย่อยสี่สี่เหลี่ยม ย่อยแต่ละตารางคำนวณ histogram ของทิศทาง (16 ถัง) ถ่วงน้ำหนักที่มีขนาดของพวกเขา ดังนั้นย่อยแต่ละตารางจะช่วยให้คุณเวกเตอร์ที่มีค่า 16 สี่พาหะเช่น (สี่ย่อยสี่เหลี่ยม) เข้าด้วยกันจะช่วยให้เราเวกเตอร์คุณลักษณะที่มีค่า 64 นี่คือคุณลักษณะเวกเตอร์ที่เราใช้ในการฝึกอบรมข้อมูลของเรา

 def hog(img):
     gx = cv2.Sobel(img, cv2.CV_32F, 1, 0)
     gy = cv2.Sobel(img, cv2.CV_32F, 0, 1)
     mag, ang = cv2.cartToPolar(gx, gy)
 
     # quantizing binvalues in (0...16)
     bins = np.int32(bin_n*ang/(2*np.pi))
 
     # Divide to 4 sub-squares
     bin_cells = bins[:10,:10], bins[10:,:10], bins[:10,10:], bins[10:,10:]
     mag_cells = mag[:10,:10], mag[10:,:10], mag[:10,10:], mag[10:,10:]
     hists = [np.bincount(b.ravel(), m.ravel(), bin_n) for b, m in zip(bin_cells, mag_cells)]
     hist = np.hstack(hists)
  return hist

สุดท้ายเป็นในกรณีที่ก่อนหน้านี้เราเริ่มต้นด้วยการแยกชุดข้อมูลขนาดใหญ่ของเราในแต่ละเซลล์ ทุกบาท 250 เซลล์ถูกสงวนไว้สำหรับข้อมูลการฝึกอบรมและที่เหลืออีก 250 ข้อมูลจะถูกสงวนไว้สำหรับการทดสอบ โค้ดเต็มรูปแบบได้รับด้านล่าง

 import cv2
 import numpy as np
 
 SZ=20
 bin_n = 16 # Number of bins
 
 
 affine_flags = cv2.WARP_INVERSE_MAP|cv2.INTER_LINEAR
 
 def deskew(img):
     m = cv2.moments(img)
     if abs(m['mu02']) < 1e-2:
         return img.copy()
     skew = m['mu11']/m['mu02']
     M = np.float32([[1, skew, -0.5*SZ*skew], [0, 1, 0]])
     img = cv2.warpAffine(img,M,(SZ, SZ),flags=affine_flags)
     return img
 
 def hog(img):
     gx = cv2.Sobel(img, cv2.CV_32F, 1, 0)
     gy = cv2.Sobel(img, cv2.CV_32F, 0, 1)
     mag, ang = cv2.cartToPolar(gx, gy)
     bins = np.int32(bin_n*ang/(2*np.pi))    # quantizing binvalues in (0...16)
     bin_cells = bins[:10,:10], bins[10:,:10], bins[:10,10:], bins[10:,10:]
     mag_cells = mag[:10,:10], mag[10:,:10], mag[:10,10:], mag[10:,10:]
     hists = [np.bincount(b.ravel(), m.ravel(), bin_n) for b, m in zip(bin_cells, mag_cells)]
     hist = np.hstack(hists)     # hist is a 64 bit vector
     return hist
 
 img = cv2.imread('digits.png',0)
 
 cells = [np.hsplit(row,100) for row in np.vsplit(img,50)]
 
 # First half is trainData, remaining is testData
 train_cells = [ i[:50] for i in cells ]
 test_cells = [ i[50:] for i in cells]
 
 ######     Now training      ########################
 
 deskewed = [map(deskew,row) for row in train_cells]
 hogdata = [map(hog,row) for row in deskewed]
 trainData = np.float32(hogdata).reshape(-1,64)
 responses = np.float32(np.repeat(np.arange(10),250)[:,np.newaxis])
 
 svm = cv2.ml.SVM_create()
 svm.setKernel(cv2.ml.SVM_LINEAR)
 svm.setType(cv2.ml.SVM_C_SVC)
 svm.setC(2.67)
 svm.setGamma(5.383)
 
 svm.train(trainData, cv2.ml.ROW_SAMPLE, responses)
 svm.save('svm_data.dat')
 
 ######     Now testing      ########################
 
 deskewed = [map(deskew,row) for row in test_cells]
 hogdata = [map(hog,row) for row in deskewed]
 testData = np.float32(hogdata).reshape(-1,bin_n*4)
 result = svm.predict(testData)
 
 #######   Check Accuracy   ########################
 mask = result==responses
 correct = np.count_nonzero(mask)
 print correct*100.0/result.size

เทคนิคนี้โดยเฉพาะอย่างยิ่งความถูกต้องให้ฉันเกือบ 94% คุณสามารถลองค่าที่แตกต่างกันสำหรับพารามิเตอร์ต่างๆของ SVM เพื่อตรวจสอบว่าถูกต้องสูงเป็นไปได้ หรือคุณสามารถอ่านเอกสารทางเทคนิคเกี่ยวกับพื้นที่นี้และพยายามที่จะใช้พวกเขา

Additional Resources

1.Histograms of Oriented Gradients Video

Exercises

1.ตัวอย่าง OpenCV ประกอบด้วย digits.py ซึ่งใช้การปรับปรุงเล็กน้อยของวิธีการดังกล่าวเพื่อให้ได้ผลดีขึ้น นอกจากนี้ยังมีการอ้างอิง ตรวจสอบและทำความเข้าใจกับมัน