ดร.คิด กับ Big Data :from Concept to Applications

เก็บตกจากงาน Digital Thailand Bigbang

ที่ ดร.ณภัทร จาตุศรีพิทักษ์ หรือ ดร.คิด ลูกชายคนโตของ ดร.สมคิด จาตุศรีพิทักษ์ พูดถึงการจัดการ Big Data ไปจนถึง AI Machine Learning และเปรียบเทียบความแตกต่างระหว่าง Data กับ Oil ตบท้ายด้วย Quick Strategic Tips



เริ่มจากไปดูกันที่ 7 บริษัทยักษ์ใหญ่ในปัจจุบัน คือ Apple, Amazon, Alphabet, Microsoft, Alibaba, Tencent, Facebook รวมๆแล้วมีมูลค่าตลาดคิดแล้วเป็น 11 เท่าของ GDP ประเทศไทยเลย เป็นผลพวงมาจากการที่เค้ารู้จักใช้ประโยชน์จากข้อมูลขนาดยักษ์ได้เก่งกาจก่อนคนอื่นแล้ว เราหล่ะจำทำอย่างไรในยุคที่ Technology มีอยู่มากมาย แต่จะเอามาใช้กับ Big Data ได้อย่างไร

คำถามสำคัญคือ จะทำยังไงถึงจะแปลง Concept มาเป็น Application ให้ได้


ก่อนอื่น ต้องมองให้เห็นปลายทางก่อนว่าจะเอา Big data ที่มีอยู่ไปทำอะไร ควรมอง Data ไปให้ถึง AI

ความเก่งกาจของ AI นอกจากสามารถชนะแชมป์หมากรุก หมากล้อม แล้ว AI ยังมีความสามารถอื่นๆอีกมากมาย แม้กระทั่งการอ่านใจคน ตอนนี้มีเทคโนโลยีที่แค่เอาเครื่องมาไว้ที่คางเราเท่านั้น ก็สามารถรู้ได้ว่าเราคิดอะไรอยู่


จากการ Survey พบว่ามีบริษัทถึง 72% ที่เห็นว่า AI จะมามีอิทธิพลต่อโลกเราอย่างมากในอีก 5 ปีข้างหน้า แต่ปัญหาก็คือมีถึง 77% ที่ยังไม่มีแผนว่าจะเริ่มทำและจะรับมือกับ AI ยังไง





การที่คุณจะกระโดดจากบริษัทที่ไม่มี Data mindset ในองค์กร ไปสู่ AI Solution เป็นเรื่องไม่ง่ายเลย บางอย่างอาจซื้อสำเร็จรูปได้ แต่บางอย่างต้องสร้างเองในองค์กร ดังนั้นการกำหนดกลยุทธ์ด้าน DATA จึงเป็นเรื่องสำคัญ


คำถามที่เราต้องตอบตัวเองให้ได้คือ Why do you need Big DATA Strategy?





Reason1: Big DATA Powers AI


ที่ต้องมี Data Strategy เพราะ AI ที่ปราศจาก DATA แล้ว ทำอะไรไม่ได้เลย ถ้ายังมองไม่ออกว่า AI กับ Big DATA เกี่ยวกันยังไง อันนี้เป็นเข้าใจผิดอันดับหนึ่ง

Why does AI need Data?

การที่ Google สามารถทำนายว่าเราจะพิมพ์อะไรต่อไป เราจะพูดอะไร การแยกรูปภาพหมาแมว หรือ Apps หาคู่ที่ทำนายเบื้องต้นว่าเราน่าจะชอบคนไหน ทั้งหมดนี้จะทำนายได้ ต้องการ DATA ทั้งนั้น ถ้าพูดถึง AI ก็ต้องพูดถึง Machine Learning

การอธิบายถึง Machine Learning อย่างง่ายๆ คือเริ่มต้นจากที่เรามี Data แต่ Data ที่มีต้อง Clean และต้องมีจำนวนมากพอ


ช่วงเริ่มต้น Machine algorithm ยังไม่ฉลาด ยังเหมือนเด็กเกิดใหม่ ยังไม่มีพ่อแม่สอนว่าอะไรถูกอะไรผิด อะไรคือหมา อะไรคือแมว อะไรเป็นคำพูดแบบนี้ อะไรเป็นคำพูดแบบนั้น ใครเป็นคนที่น่าจะหนี้เสีย ใครเป็นคนที่น่าจะหนี้ไม่เสีย ยังไม่มีความรู้อะไรทั้งนั้น ดังนั้นตอนเริ่มต้นต้องมีการพัฒนาสมองของ Machine

Hold some Data out in the “test set” เริ่มโดยการ ยกตัวอย่างถ้ามี 100 Data point เราเริ่มแยกออกมา 20 Data point ก่อน ส่วนที่เหลืออีก 80 จะเอาไปพัฒนา Model ให้ Model เรียนรู้ เช่น รูปนี้คือ หมา รูปนี้คือ แมว อย่างนี้เรียกคนสวย อย่างนี้เรียกคนหล่อ

Have the trained model predict test set it hasn’t seen พอเรียนเสร็จปุ๊ป กะโหลกปิด รู้แล้วว่าถ้าต่อไปเจอรูปแบบนี้น่าจะเป็นหมา รูปแบบนี้น่าจะเป็นแมว แล้วลองเอาไปจับกับ Data point 20 อันที่แยกไว้ตอนแรก ดูสิว่าจากรูปแบบ pixel ประมาณนี้ ทายสิว่าเป็น หมา หรือเป็นแมว ถ้าทายถูกแสดงว่าสมองที่พัฒนามาใช้ได้ ถ้ายังใช้ไม่ได้ ก็กลับไปเรียนรู้ใหม่ กระบวนการแก้โจทย์ต่างๆ มีประมาณนี้

เมื่อเข้าใจ Concept ของ Machine Learning เบื้องต้นแล้ว ต่อไปเราจะไปดูว่า จาก Concept จะไปสู่ Application ได้อย่างไร ซึ่งไม่ได้ง่าย


ยกตัวอย่าง Deep Map ที่แบ่งแผนที่ออกเป็นช่องๆ แต่ละช่องจะพยามบอกลักษณะของคนที่อยู่ในพื้นที่นั้นให้มากที่สุด เช่น จำนวนประชากร พฤติกรรมการใช้จ่าย บริเวณนั้นใกล้ BTS แค่ไหน มีร้านค้าอะไรบ้าง ราคาที่ดินเท่าไหร่ ธุรกิจแถวนั้นมีกำไรขาดทุนแค่ไหน ที่ต้องทำอย่างนี้เพื่อเป็นตัวช่วยในการเลือกซื้อที่ จากที่เคยใช้ลางสังหรณ์ ในการเลือกซื้อ Model นี้ต้องการพยากรณ์ให้ได้ว่า หากคุณไปเปิดสาขาใหม่ตรงโน้น น่าจะได้รายได้เท่าไหร่ ดังนั้นก็ต้องวางแผนก่อนว่าต้องการข้อมูลอะไรบ้าง จากนั้นทำการ Code Script and Aggregate Data แล้วกดปุ่ม เหมือนง่าย แต่ตอนทำใช้เวลาเป็นเดือนๆ ทั้งหมดที่ว่ามานี้ยังไม่มี AI เป็นส่วนร่วมเลย


พอเอาข้อมูลในแง่มุมต่างๆมาซ้อนทับกัน พบว่าใน กทม. มีความหลากหลายในข้อมูลแค่ไหน คนเราอยากอยู่ในที่ที่มีร้านค้าหนาแน่น แต่ต้องไม่ขายของซ้ำๆกัน ยิ่งสีเข้มยิ่งมีความหลากหลายมาก