OCR of Hand-written Data using SVM
วัตถุประสงค์
- เราจะทบทวนข้อมูล OCR ที่เขียนด้วยมือ แต่มี SVM แทน kNN
OCR of Hand-written Digits
ใน kNN เราใช้ความเข้มพิกเซลโดยตรงเป็นเวกเตอร์คุณลักษณะ ในครั้งนี้เราจะใช้ Histogram ของการไล่ระดับสี Oriented (HOG) เป็นพาหะคุณลักษณะ
ที่นี่ก่อนที่จะหา HOG เรา deskew ภาพโดยใช้ช่วงเวลาที่สั่งซื้อของที่สอง ดังนั้นก่อนที่เรากำหนด deskew ฟังก์ชั่น () ซึ่งจะนำภาพหลักและ deskew มัน ด้านล่างนี้คือ deskew () ฟังก์ชัน
def deskew(img): m = cv2.moments(img) if abs(m['mu02']) < 1e-2: return img.copy() skew = m['mu11']/m['mu02'] M = np.float32([[1, skew, -0.5*SZ*skew], [0, 1, 0]]) img = cv2.warpAffine(img,M,(SZ, SZ),flags=affine_flags) return img
ภาพด้านล่างแสดงให้เห็นข้างต้นฟังก์ชั่น deskew นำไปใช้กับภาพได้เลย ภาพซ้ายเป็นภาพต้นฉบับและภาพขวาเป็นภาพ deskew
ต่อไปเราต้องไป HOG อธิบายของแต่ละเซลล์ เพื่อที่เราจะพบอนุพันธ์โชเบลของแต่ละเซลล์ใน X และ Y ทิศทาง แล้วหาขนาดและทิศทางของพวกเขาจากการไล่ระดับสีในแต่ละพิกเซล การไล่ระดับสีนี้ไท 16 ค่าจำนวนเต็ม แบ่งภาพนี้เพื่อย่อยสี่สี่เหลี่ยม ย่อยแต่ละตารางคำนวณ histogram ของทิศทาง (16 ถัง) ถ่วงน้ำหนักที่มีขนาดของพวกเขา ดังนั้นย่อยแต่ละตารางจะช่วยให้คุณเวกเตอร์ที่มีค่า 16 สี่พาหะเช่น (สี่ย่อยสี่เหลี่ยม) เข้าด้วยกันจะช่วยให้เราเวกเตอร์คุณลักษณะที่มีค่า 64 นี่คือคุณลักษณะเวกเตอร์ที่เราใช้ในการฝึกอบรมข้อมูลของเรา
def hog(img): gx = cv2.Sobel(img, cv2.CV_32F, 1, 0) gy = cv2.Sobel(img, cv2.CV_32F, 0, 1) mag, ang = cv2.cartToPolar(gx, gy) # quantizing binvalues in (0...16) bins = np.int32(bin_n*ang/(2*np.pi)) # Divide to 4 sub-squares bin_cells = bins[:10,:10], bins[10:,:10], bins[:10,10:], bins[10:,10:] mag_cells = mag[:10,:10], mag[10:,:10], mag[:10,10:], mag[10:,10:] hists = [np.bincount(b.ravel(), m.ravel(), bin_n) for b, m in zip(bin_cells, mag_cells)] hist = np.hstack(hists) return hist
สุดท้ายเป็นในกรณีที่ก่อนหน้านี้เราเริ่มต้นด้วยการแยกชุดข้อมูลขนาดใหญ่ของเราในแต่ละเซลล์ ทุกบาท 250 เซลล์ถูกสงวนไว้สำหรับข้อมูลการฝึกอบรมและที่เหลืออีก 250 ข้อมูลจะถูกสงวนไว้สำหรับการทดสอบ โค้ดเต็มรูปแบบได้รับด้านล่าง
import cv2 import numpy as np SZ=20 bin_n = 16 # Number of bins affine_flags = cv2.WARP_INVERSE_MAP|cv2.INTER_LINEAR def deskew(img): m = cv2.moments(img) if abs(m['mu02']) < 1e-2: return img.copy() skew = m['mu11']/m['mu02'] M = np.float32([[1, skew, -0.5*SZ*skew], [0, 1, 0]]) img = cv2.warpAffine(img,M,(SZ, SZ),flags=affine_flags) return img def hog(img): gx = cv2.Sobel(img, cv2.CV_32F, 1, 0) gy = cv2.Sobel(img, cv2.CV_32F, 0, 1) mag, ang = cv2.cartToPolar(gx, gy) bins = np.int32(bin_n*ang/(2*np.pi)) # quantizing binvalues in (0...16) bin_cells = bins[:10,:10], bins[10:,:10], bins[:10,10:], bins[10:,10:] mag_cells = mag[:10,:10], mag[10:,:10], mag[:10,10:], mag[10:,10:] hists = [np.bincount(b.ravel(), m.ravel(), bin_n) for b, m in zip(bin_cells, mag_cells)] hist = np.hstack(hists) # hist is a 64 bit vector return hist img = cv2.imread('digits.png',0) cells = [np.hsplit(row,100) for row in np.vsplit(img,50)] # First half is trainData, remaining is testData train_cells = [ i[:50] for i in cells ] test_cells = [ i[50:] for i in cells] ###### Now training ######################## deskewed = [map(deskew,row) for row in train_cells] hogdata = [map(hog,row) for row in deskewed] trainData = np.float32(hogdata).reshape(-1,64) responses = np.float32(np.repeat(np.arange(10),250)[:,np.newaxis]) svm = cv2.ml.SVM_create() svm.setKernel(cv2.ml.SVM_LINEAR) svm.setType(cv2.ml.SVM_C_SVC) svm.setC(2.67) svm.setGamma(5.383) svm.train(trainData, cv2.ml.ROW_SAMPLE, responses) svm.save('svm_data.dat') ###### Now testing ######################## deskewed = [map(deskew,row) for row in test_cells] hogdata = [map(hog,row) for row in deskewed] testData = np.float32(hogdata).reshape(-1,bin_n*4) result = svm.predict(testData) ####### Check Accuracy ######################## mask = result==responses correct = np.count_nonzero(mask) print correct*100.0/result.size
เทคนิคนี้โดยเฉพาะอย่างยิ่งความถูกต้องให้ฉันเกือบ 94% คุณสามารถลองค่าที่แตกต่างกันสำหรับพารามิเตอร์ต่างๆของ SVM เพื่อตรวจสอบว่าถูกต้องสูงเป็นไปได้ หรือคุณสามารถอ่านเอกสารทางเทคนิคเกี่ยวกับพื้นที่นี้และพยายามที่จะใช้พวกเขา
Additional Resources
Exercises
- 1.ตัวอย่าง OpenCV ประกอบด้วย digits.py ซึ่งใช้การปรับปรุงเล็กน้อยของวิธีการดังกล่าวเพื่อให้ได้ผลดีขึ้น นอกจากนี้ยังมีการอ้างอิง ตรวจสอบและทำความเข้าใจกับมัน