ดร.คิด กับ Big Data :from Concept to Applications

เก็บตกจากงาน Digital Thailand Bigbang

ที่ ดร.ณภัทร จาตุศรีพิทักษ์ หรือ ดร.คิด ลูกชายคนโตของ ดร.สมคิด จาตุศรีพิทักษ์ พูดถึงการจัดการ Big Data ไปจนถึง AI Machine Learning และเปรียบเทียบความแตกต่างระหว่าง Data กับ Oil ตบท้ายด้วย Quick Strategic Tips

เริ่มจากไปดูกันที่ 7 บริษัทยักษ์ใหญ่ในปัจจุบัน คือ Apple, Amazon, Alphabet, Microsoft, Alibaba, Tencent, Facebook รวมๆแล้วมีมูลค่าตลาดคิดแล้วเป็น 11 เท่าของ GDP ประเทศไทยเลย เป็นผลพวงมาจากการที่เค้ารู้จักใช้ประโยชน์จากข้อมูลขนาดยักษ์ได้เก่งกาจก่อนคนอื่นแล้ว เราหล่ะจำทำอย่างไรในยุคที่ Technology มีอยู่มากมาย แต่จะเอามาใช้กับ Big Data ได้อย่างไร

คำถามสำคัญคือ จะทำยังไงถึงจะแปลง Concept มาเป็น Application ให้ได้

ก่อนอื่น ต้องมองให้เห็นปลายทางก่อนว่าจะเอา Big data ที่มีอยู่ไปทำอะไร ควรมอง Data ไปให้ถึง AI

ความเก่งกาจของ AI นอกจากสามารถชนะแชมป์หมากรุก หมากล้อม แล้ว AI ยังมีความสามารถอื่นๆอีกมากมาย แม้กระทั่งการอ่านใจคน ตอนนี้มีเทคโนโลยีที่แค่เอาเครื่องมาไว้ที่คางเราเท่านั้น ก็สามารถรู้ได้ว่าเราคิดอะไรอยู่

จากการ Survey พบว่ามีบริษัทถึง 72% ที่เห็นว่า AI จะมามีอิทธิพลต่อโลกเราอย่างมากในอีก 5 ปีข้างหน้า แต่ปัญหาก็คือมีถึง 77% ที่ยังไม่มีแผนว่าจะเริ่มทำและจะรับมือกับ AI ยังไง

การที่คุณจะกระโดดจากบริษัทที่ไม่มี Data mindset ในองค์กร ไปสู่ AI Solution เป็นเรื่องไม่ง่ายเลย บางอย่างอาจซื้อสำเร็จรูปได้ แต่บางอย่างต้องสร้างเองในองค์กร ดังนั้นการกำหนดกลยุทธ์ด้าน DATA จึงเป็นเรื่องสำคัญ

คำถามที่เราต้องตอบตัวเองให้ได้คือ Why do you need Big DATA Strategy?

Reason1: Big DATA Powers AI

ที่ต้องมี Data Strategy เพราะ AI ที่ปราศจาก DATA แล้ว ทำอะไรไม่ได้เลย ถ้ายังมองไม่ออกว่า AI กับ Big DATA เกี่ยวกันยังไง อันนี้เป็นเข้าใจผิดอันดับหนึ่ง

Why does AI need Data?

การที่ Google สามารถทำนายว่าเราจะพิมพ์อะไรต่อไป เราจะพูดอะไร การแยกรูปภาพหมาแมว หรือ Apps หาคู่ที่ทำนายเบื้องต้นว่าเราน่าจะชอบคนไหน ทั้งหมดนี้จะทำนายได้ ต้องการ DATA ทั้งนั้น ถ้าพูดถึง AI ก็ต้องพูดถึง Machine Learning

การอธิบายถึง Machine Learning อย่างง่ายๆ คือเริ่มต้นจากที่เรามี Data แต่ Data ที่มีต้อง Clean และต้องมีจำนวนมากพอ

ช่วงเริ่มต้น Machine algorithm ยังไม่ฉลาด ยังเหมือนเด็กเกิดใหม่ ยังไม่มีพ่อแม่สอนว่าอะไรถูกอะไรผิด อะไรคือหมา อะไรคือแมว อะไรเป็นคำพูดแบบนี้ อะไรเป็นคำพูดแบบนั้น ใครเป็นคนที่น่าจะหนี้เสีย ใครเป็นคนที่น่าจะหนี้ไม่เสีย ยังไม่มีความรู้อะไรทั้งนั้น ดังนั้นตอนเริ่มต้นต้องมีการพัฒนาสมองของ Machine

Hold some Data out in the “test set” เริ่มโดยการ ยกตัวอย่างถ้ามี 100 Data point เราเริ่มแยกออกมา 20 Data point ก่อน ส่วนที่เหลืออีก 80 จะเอาไปพัฒนา Model ให้ Model เรียนรู้ เช่น รูปนี้คือ หมา รูปนี้คือ แมว อย่างนี้เรียกคนสวย อย่างนี้เรียกคนหล่อ

Have the trained model predict test set it hasn’t seen พอเรียนเสร็จปุ๊ป กะโหลกปิด รู้แล้วว่าถ้าต่อไปเจอรูปแบบนี้น่าจะเป็นหมา รูปแบบนี้น่าจะเป็นแมว แล้วลองเอาไปจับกับ Data point 20 อันที่แยกไว้ตอนแรก ดูสิว่าจากรูปแบบ pixel ประมาณนี้ ทายสิว่าเป็น หมา หรือเป็นแมว ถ้าทายถูกแสดงว่าสมองที่พัฒนามาใช้ได้ ถ้ายังใช้ไม่ได้ ก็กลับไปเรียนรู้ใหม่ กระบวนการแก้โจทย์ต่างๆ มีประมาณนี้

เมื่อเข้าใจ Concept ของ Machine Learning เบื้องต้นแล้ว ต่อไปเราจะไปดูว่า จาก Concept จะไปสู่ Application ได้อย่างไร ซึ่งไม่ได้ง่าย

ยกตัวอย่าง Deep Map ที่แบ่งแผนที่ออกเป็นช่องๆ แต่ละช่องจะพยามบอกลักษณะของคนที่อยู่ในพื้นที่นั้นให้มากที่สุด เช่น จำนวนประชากร พฤติกรรมการใช้จ่าย บริเวณนั้นใกล้ BTS แค่ไหน มีร้านค้าอะไรบ้าง ราคาที่ดินเท่าไหร่ ธุรกิจแถวนั้นมีกำไรขาดทุนแค่ไหน ที่ต้องทำอย่างนี้เพื่อเป็นตัวช่วยในการเลือกซื้อที่ จากที่เคยใช้ลางสังหรณ์ ในการเลือกซื้อ Model นี้ต้องการพยากรณ์ให้ได้ว่า หากคุณไปเปิดสาขาใหม่ตรงโน้น น่าจะได้รายได้เท่าไหร่ ดังนั้นก็ต้องวางแผนก่อนว่าต้องการข้อมูลอะไรบ้าง จากนั้นทำการ Code Script and Aggregate Data แล้วกดปุ่ม เหมือนง่าย แต่ตอนทำใช้เวลาเป็นเดือนๆ ทั้งหมดที่ว่ามานี้ยังไม่มี AI เป็นส่วนร่วมเลย

พอเอาข้อมูลในแง่มุมต่างๆมาซ้อนทับกัน พบว่าใน กทม. มีความหลากหลายในข้อมูลแค่ไหน คนเราอยากอยู่ในที่ที่มีร้านค้าหนาแน่น แต่ต้องไม่ขายของซ้ำๆกัน ยิ่งสีเข้มยิ่งมีความหลากหลายมาก และการไปซื้อที่แพงๆ ก็ไม่จำเป็นที่จะได้กำไรเสมอไป ตรงนี้เราจะเริ่มใช้ Deep learning โดย AI เพื่อทำนายว่าถ้าคุณไปเปิดร้านแต่ละพื้นที่ คุณน่าจะมีกำไรประมาณเท่าไหร่ อันนี้เป็นตัวอย่างการทำงานจาก Concept สู่ Applications ดูแล้วง่ายนะครับ แต่ง่ายสำหรับบริษัทเล็กๆ แต่ไม่ง่ายเลยสำหรับบริษัทใหญ่ๆ เช่น ธนาคาร เทเลคอม ที่มีคนหลายพันหลายหมื่นคน Culture ต่างจากบริษัทเล็กๆ และโจทย์ที่มีก็ใหญ่กว่ากันเยอะ

Reason 2: Complexity

ปัจจัยหลายๆอย่างมีความซับซ้อนมาก ไม่ใช่สำเร็จรูป คือแค่มี DATA แล้วกดปุ่ม Run ก็เสร็จแล้ว ไม่ได้ง่ายขนาดนั้น

Big Data = the new oil

มีความเข้าใจว่า Big Data เหมือนกับน้ำมันคือ แค่เติมเชื้อเพลิงเข้าไปรถก็วิ่งได้แล้ว เปรียบก็คือให้ Big Data เป็นตัวขับเคลื่อนธุรกิจ ความเข้าใจนี้ยังไม่ถูกต้อง 100% เพราะ Data มีความซับซ้อนกว่าน้ำมันเยอะมาก เหตุผลก็คือ

Why data is more complex than oil?

หนึ่ง Data ทำได้หลายอย่างเกินไป หลายๆ อย่างที่เราเห็นว่า Data ทำได้ แต่ไม่ได้แปลว่าเราต้องทำทุกอย่าง

แต่ละเทคโนโลยี เช่น Chatbot, Face Recognition ไม่ได้จำเป็นกับทุกบริษัท

สอง การที่ไม่มีวันหมดคือ Copy แล้ว Paste ได้เรื่อยๆ ก็ไม่ดีเสมอไป จริงอยู่ว่าทำให้ต้นทุนต่ำ แต่ในอีกมุมคือยิ่งมีเยอะเท่าไหร่ยิ่งต้องหาที่เก็บ แล้วต้องมาเลือกด้วยว่าอะไรควรเก็บ อะไรควรทิ้ง ต่างๆ เหล่านี้ ทำให้เราต้องย้อนกลับมาที่ Business Model ว่าอะไร work อะไรไม่ work

สาม ในอนาคตธุรกิจแบบ B2B ต้องทำ Data Sharing กันมากขึ้น แต่ที่ต้องกังวลคือ Data ที่เอามา Share กัน ขณะนี้ยังไม่มีวิธีตรวจสอบว่าเป็นข้อมูลจริงมากน้อยแค่ไหน ตรงนี้ Blockchain อาจจะเข้ามาช่วยได้ในอนาคต แต่ทุกวันนี้ตัว Blockchain เองก็ยังอยู่ในช่วงต้นของการพัฒนา ทำให้มีต้นทุนสูงอยู่ในการ verify data

สี่ ในกระบวนการ Machine Learning การทำให้ผิดง่ายกว่าการทำให้ถูก

ห้า สำคัญที่สุดคือ เหตุผลทางกฎหมายและจริยธรรม ในการนำข้อมูลลูกค้ามาใช้ เช่น ข้อมูลสุขภาพ จะเอาไปขาย ไปทำอะไรต่อ เราได้รับความยินยอมจากลูกค้าแล้วหรือยัง

เราใช้ทั้งห้าข้อข้างต้นมาเปรียบเทียบกับน้ำมัน ได้ ประมาณนี้

หนึ่ง เวลาเราใช้น้ำมัน ก็ใช้ได้กับรถบางประเภท

สอง น้ำมันนั้นก็มีวันหมด

สาม น้ำมันสามารถ verify ได้ ว่ามีสิ่งเจอปนหรือไม่

สี่ น้ำมันถ้าใส่รถแล้วรถก็วิ่งได้แน่ๆ

ห้า เวลาเติมน้ำมัน ไม่มีการละเมิดสิทธิส่วนบุคคลใดๆ เติมก็แค่เติม น้ำมันที่ถูกเผาผลาญไม่มีการเรียกร้องสิทธิอะไร

ในเมื่อ Data มีความซับซ้อน ขนาดนี้ทำให้เราต้องคิดตั้งแต่วันนี้ว่า เราควรจะวางแผนยังไง ควรจะจ้างใครมาดูแล เกี่ยวกับ Data Strategy

อย่างไรก็ตาม อย่าเพิ่งกังวลมาก อย่างน้อยการเริ่มต้น ก็ดีกว่าการไม่ทำอะไรเลย ควรเริ่มจากอะไรที่ง่ายๆ และเกี่ยวข้องกับธุรกิจ โดยตรงก่อน

คนรุ่นใหม่ที่ถูกจ้างมาทุกวันนี้ มีความต้องการสร้างของเล่นใหม่ๆ ที่เท่ๆ ยากๆ ซึ่งบางทีของนั้นๆ ก็ไม่ได้ตอบโจทย์ธุรกิจ อันนี้เป็นปัญหา เพราะการที่เราเริ่มจากอะไรที่ยากๆ แล้วไม่สามารถ turn เป็น economic value ออกมาได้ เป็นสาเหตุให้ไม่สามารถ convince คนอื่นได้ว่า Data science มีประโยชน์อย่างไร จะถูกมองเป็นแค่ของเล่นเท่านั้น

Quick Strategic Tips

1. Start อย่างน้อยการเริ่มต้น ก็ดีกว่าการไม่ทำอะไรเลย

2. Start with SIMPLE and RELEVANT คือควรเริ่มจากอะไรที่ง่ายๆ และเกี่ยวข้องกับธุรกิจ โดยตรงก่อน คนรุ่นใหม่ที่ถูกจ้างมาทุกวันนี้ มีความต้องการสร้างของเล่นใหม่ๆ ที่เท่ๆ ยากๆ ซึ่งบางทีของนั้นๆ ก็ไม่ได้ตอบโจทย์ธุรกิจ อันนี้เป็นปัญหา เพราะการที่เราเริ่มจากอะไรที่ยากๆ แล้วไม่สามารถ turn เป็น economic value ออกมาได้ เป็นสาเหตุให้ไม่สามารถ convince คนอื่นได้ว่า Data science มีประโยชน์อย่างไร จะถูกมองเป็นแค่ของเล่นเท่านั้น

3. ควรเริ่มจากการสร้าง Success Factor มี 4 อันที่ทำให้สามารถทำ Big Data ยังไงก็ปัง ยังไงก็ work (What makes a Successful Big Data Project?)

3.1 Aligned Vision: ผู้บริหารต้องเห็นตรงกันว่าเราจะทำ Big data กันไปทำไม What’s the purpose of data analytics? เช่น Create new revenue streams?/ Optimize existing operations?/ Cross-sell up-sell?/ Customer acquisition?/ Survival card?

3.2 Human Capital: เรื่องคน Ideal Team ควรมี ตำแหน่งประมาณนี้คือ Data Engineer, Data Scientist, Strategist /PM, Business Analyst ปัญหาคือ ทุกวันนี้บริษัทส่วนใหญ่มีเฉพาะ Business Analyst แล้วจะให้ไปหา Data Scientist จากไหน หรือพอหาเจอแล้วก็อยู่ได้ไม่ทนอีก โดยเฉพาะเด็กรุ่นใหม่ๆ อยู่แต่ละที่ได้ไม่นาน วิธีดึงคนกลุ่มนี้ไว้ให้ได้คือต้องใช้ Impact and Fun, Challenge, Respect, Opportunity to grow คือต้องเป็นงานที่สนุก ท้าทาย ไม่จำเจ

3.3 Data Management: การทำฐานข้อมูลให้ดี เหมือนร้านทำขนมปัง ต้องมีเตาอบที่ดีที่ทำขนมปังได้ออกมาในปริมาณและคุณภาพที่ต้องการ

3.4 Politics, Legal, & Regulation: การเมืองในองค์กร ใครเป็นนายใคร ใครเป็นคนจ่ายเงิน ใครเป็นหนี้บุญคุณใคร คนนี้ไม่ชอบคนนั้น อันนี้ถือเป็นอุปสรรคใหญ่ในการทำ Project เพราะ Data Science ต้องการความช่วยเหลือจากทุกหน่วยงานในการให้ข้อมูล เพราะทุกวันนี้ Dataส่วนใหญ่ยังไม่ถูกรวมศูนย์ แต่ละหน่วยจะมี Data ของตนเอง อันนี้ยังไม่นับ Data ของลูกค้า และ Data ที่ Regulator The MOST difficult part of big data analytics ที่ทำๆ ไปเนี่ย นายใหญ่ต้องการจริงหรือเปล่า การทะเลาะกันเองเป็นอุปสรรคสำคัญของ Data analytics อีกอย่างที่สำคัญ คือ ข้อกฎหมายยัง update ไม่ทันความจำเป็นในการใช้ข้อมูล ว่าข้อมูลอะไรที่เราสามารถเอามาใช้ได้เลยบ้าง บางอย่างขึ้นอยู่กับมุมมองการตีความ

ถ้าเราสามารถปลดล็อคข้อต่างๆเหล่านี้ได้ เราถึงจะเห็นศักยภาพที่แท้จริงของแต่ละบริษัท