Big data Analytic จะใช้เครื่องมืออะไรบ้างในการวิเคราะห์เบื้องต้น

Big data Analytic จะใช้เครื่องมืออะไรบ้างในการวิเคราะห์เบื้องต้น Big data คือ ข้อมูลจำนวนมากมหาศาล หรือมีขนาดใหญ่ทั้งข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) เช่น ตารางข้อมูลที่มีการจัดเรียงอย่างเป็นรูปแบบ สามารถนำมาวิเคราะห์ได้เลย และข้อมูลกึ่งโครงสร้าง (Semi-Structured Data) คือ ข้อมูลที่สามารถค้นหา (search) หรือแท็ก (tag) ได้ ตลอดจนข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เป็นข้อมูลที่ไม่มีโครงสร้างแน่นอน หรือข้อความยาวๆ เช่น เสียง รูปภาพ หรือวิดีโอ โดยข้อมูลเหล่านี้จะมีความซับซ้อน และต้องการชอฟต์แวร์ที่มีประสิทธิภาพมารองรับ เพื่อทำการประมวลผลและสามารถนำข้อมูลเหล่านั้นไปใช้ประโยชน์ได้แบบเรียลไทม์

Data Analyst คือ การวิเคราะห์ข้อมูลจากโมเดล เพื่อใช้ในการพยากรณ์แนวโน้ม หรือพฤติกรรมต่างๆ โดยทั่วไปผู้ที่มีความเชี่ยวชาญเฉพาะด้านเท่านั้น จึงจะสามารถวิเคราะห์ Data Analyst ได้หรือเรียกว่า Data Scientist เช่น Marketing Analysis และ Logistics Analysis เป็นต้น แต่หากคุณศึกษาข้อมูล รายละเอียดอย่างจริงจัง จนก่อให้เกิดความรู้ความเข้าใจพอสมควร ในด้านนี้ ไม่ว่าใครก็สามารถวิเคราะห์ Data Analyst ได้ทั้งนั้น และไม่ใช่เรื่องที่ยากอย่างที่ใครหลายคนคิด

โดยส่วนใหญ่ที่นิยมใช้ในการวิเคราะห์ประกอบด้วย 5 เครื่องมือ ดังต่อไปนี้

ซอฟต์แวร์อัจฉริยะ ที่ช่วยให้การวิเคราะห์ Big data Analytic เป็นเรื่องที่ง่ายมากยิ่งขึ้น โดยเป็นซอฟต์แวร์ BI ที่สามารถใช้วิเคราะห์ข้อมูลได้ด้วยตนเอง ช่วยให้มองเห็นภาพได้ชัดเจนมากยิ่งขึ้น มาพร้อมฟังก์ชันแดชบอร์ดที่ใช้งายได้ง่ายมากๆ เพียงแค่ลากแล้ววาง สร้างการจำลองข้อมูลที่น่าสนใจและข้อมูลเชิงลึกได้ในเวลาไม่กี่นาที และการวิเคราะห์ที่ขับเคลื่อนโดย AI ปัญญาประดิษฐ์ ผู้ช่วยอัจฉริยะที่สามารถคาดการณ์แนวโน้มได้อย่างแม่นยำ

เมื่อไม่นานมานี้ Cloudera ได้เข้ามาทำการรุกตลาดไทยจนประสบความสำเร็จด้วยการวิเคราะห์ข้อมูล Big Data Analytics อย่างมีประสิทธิภาพ โดย Cloudera นี้จะนำ Apache Hadoop และ Open Source Component ต่างๆ ที่เกี่ยวข้องมาแพ็ครวมกันเป็น Distribution ที่ให้บริการครบและจบในที่เดียว ที่สำคัญยังมีความสามารถในการเก็บข้อมูลนับเป็น PetaByte และสามารถนำมาใช้งานได้ในเว็บใหญ่ๆ หรือองค์กร หน่วยงานต่างๆ ไม่ว่าจะเป็น Facebook หรือ Yahoo โดย Cloudera ได้สร้าง QuickStart VM ขึ้นมาเพื่อให้สาย IT ทั้งหลายได้ลองเข้าถึงเทคโนโลยีและแนวคิดของ Big Data Analytics กันง่ายๆ ผ่านระบบ Lab

เครื่องมือสำหรับวิเคราะห์ข้อมูลในเชิงธุรกิจยอดนิยมเพราะสามารถเข้าถึงง่าย ใช้งายสะดวกไม่ซับซ้อน เพื่อใช้ประกอบการตัดสินใจ สามารถเชื่อมต่อและดูได้ในทุกๆ อุปกรณ์ ด้วยการสร้าง Power BI Dashboard ช่วยให้เห็นมุมมองแบบ 360 องศา เครื่องมือนี้จะช่วยจัดเก็บ รวมรวมข้อมูลจากฐานข้อมูลต่างๆ เช่น Excel, Text File รวมถึงข้อมูลจากเว็บไซต์ เป็นต้น ในปัจจุบัน Power BI สามารถใช้งานได้ทั้งระบบ Windows, iOS, และ Android

Tableau อีกหนึ่งโปรแกรมที่ใช้วิเคราะห์ Big data Analytic ซึ่งได้รับความนิยมเป็นอย่างมากในปัจจุบัน เพราะสามารถแปลงข้อมูล data ให้กลายเป็นรูปภาพหรือกราฟ Visualizations ที่ดูไม่ซับซ้อนเข้าใจง่าย และไม่ต้องเสียเวลามานั่งพล็อตกราฟเองให้ยากลำบาก นอกจากนั้นยังรองรับการเข้าถึงข้อมูลที่หลากหลาย แดชบอร์ดของ Tableau สามารถวิเคราะห์ข้อมูลได้อย่างลึกซึ้ง

โปรแกรมที่ช่วยวิเคราะห์ข้อมูลในระดับ Big data ที่จะไม่ให้พูดถึงไม่ได้เลยเด็ดขาดเพราะเป็นโปรแกรมแบบ Open Source ทำหน้าที่รับข้อมูลมาเพ่อสังเคราะห์ จนได้ข้อมูลออกมาในรูปแบบของการรายงาน ช่วยให้เห็นภาพรวมของโครงการได้เข้าใจง่ายมากยิ่งขึ้น เพื่อนำข้อมูลเหล่านั้นมาวางแผนเพื่อพัฒนาโครงการต่อไป มีระบบ Data Warehouse นำข้อมูลที่ได้มาจากส่วนต่างๆ เพื่อวิเคราะห์และทำรายงานผลผ่าน ETL (Extract Transformation Loading) จากนั้นจะนำข้อมูลไปทำเรื่อง Data Mart/Data Mining ต่อไป

อย่างไรก็ตามในการวิเคราะห์ข้อมูลของ Big Data นั้น สำหรับการวิเคราะห์เบื้องต้นหากคุณไม่มีโปรแกรมสำเร็จรูปก็สามารถใช้เครื่องมือในการวิเคราะห์ได้ ดังต่อไปนี้

Excel เรียกได้ว่าเป็นโปรแกรมที่นิยมใช้มากที่สุดและเป็นโปรแกรมสารพัดประโยชน์ ในการใช้วิเคราะห์ข้อมูลไม่ว่าจะเป็นการ Form, PivotTable, VBA เป็นต้น เชื่อว่าคอมพิวเตอร์ แท็บเล็ต หรือโน๊ตบุ๊คของทุกคนมี Excel กันอยู่แล้ว แต่สำหรับบางคนอาจไม่ชอบการใช้งานของ Excel เพราะคิดว่าไม่สามารถจัดการกับ Big Data ได้อย่างมีประสิทธิภาพ แท้จริงแล้ว Excel เองก็มี Plugins ที่สามารถจัดการข้อมูลปริมาณมาก ๆ ได้เช่นกัน

หากข้อมูลนั้นมีปริมาณมากเกินไปบางครั้ง Excel จะไม่สามารถทำการ PivotTable ให้สมบูรณ์ได้ BI Tools (Business intelligence) จึงถูกสร้างขึ้นมา โดยวัตถุประสงค์ในการสร้างก็เพื่อใช้ในการวิเคราะห์ข้อมูลอย่างแท้จริง โดยมีจุดมุ่งหมายก็เพื่อลดระยะเวลาในการวิเคราะห์ข้อมูล เพื่อให้ธุรกิจสามารถนำข้อมูลที่ได้ไปใช้ในการตัดสินใจได้อย่างทันท่วงที BI Tools ที่นิยมใช้ได้แก่ Fine Report, Tableau และPower BI, เป็นต้น Step แรกก็คือ การทำ Data Processing, Data Cleaning ต่อมาคือ Data Modeling และขั้นตอนสุดท้ายก็คือ การนำเสนอ Chart ด้วย Data Visualization ในรูปแบบต่างตามความต้องการ

แม้ว่า Excel และ BI Tools จะเป็นซอฟต์แวร์ที่ได้รับการออกแบบมาให้สามารถวิเคราะห์ข้อมูลในปริมาณมากได้ แต่พวกมันจะเน้นเรื่องการ Customize เป็นส่วนใหญ่ เมื่อไหร่ก็ตามที่ Software ไม่ได้ถูกการปรับปรุงหรือพัฒนาอย่างต่อเนื่องก็มีโอกาสพี่จะสร้างปัญหาทำให้งานไม่สามารถวิเคราะห์ได้อย่างมีประสิทธิภาพหรือเสร็จสมบูรณ์ ดังนั้น R และ Python เป็นเครื่องมือที่จำเป็นสำหรับ Data Scientist ที่ถูกคิดค้นขึ้นมาเพื่อตอบโจทย์ในเรื่องนี้ หรือที่เข้าใจง่ายๆ ก็คือ การเขียนภาษาโปรแกรม โดยคุณสามารถเขียนโค้ด เพื่อสั่งให้มันทำอะไรก็ได้ตามที่คุณต้องการเป็นการวิเคราะห์ทางสถิติ สามารถวิเคราะห์ข้อมูลการแจกแจง การจำแนกหรือการวิเคราะห์แบบถดถอย โดยการวิเคราะห์ในลักษณะนี้มีความยาก ใช่ว่าใครๆ ก็สามารถทำได้ อาจจะต้องอาศัยความรู้ความเข้าใจในการเขียนภาษาโปรแกรมในระดับหนึ่งเลยทีเดียว

ทั้งหมดนี้ก็คือ Big Data analysis และการใช้เครื่องมือในการวิเคราะห์ ซึ่งสิ่งที่เราได้นำเสนอไปทั้งหมดก็จะมีทั้งเครื่องมือวิเคราะห์สำเร็จรูป และเครื่องมือวิเคราะห์ในแบบพื้นฐาน หรือเบื้องต้น ทั้งนี้ ก็ขึ้นอยู่กับความต้องการใช้งานและความสะดวกในการใช้งานของแต่ละบุคคล