เกี่ยวกับการทดสอบ A/B ของ Firebase

หน้านี้มีข้อมูลโดยละเอียดเกี่ยวกับวิธีการทำงานของ Firebase A/B Testing เพื่อช่วยให้คุณเพิ่มความเกี่ยวข้องและประโยชน์ของผลการทดสอบให้ได้สูงสุด

ขนาดตัวอย่าง

Firebase A/B Testingไม่จำเป็นต้องระบุขนาดตัวอย่างขั้นต่ำก่อนเริ่มการทดสอบ โดยทั่วไปแล้ว คุณควรเลือก ระดับการเปิดเผยการทดสอบที่ใหญ่ที่สุดที่คุณรู้สึกสบายใจ ขนาดกลุ่มตัวอย่างที่ใหญ่ขึ้นจะเพิ่มโอกาสในการค้นหาผลลัพธ์ที่มีนัยสำคัญทางสถิติ โดยเฉพาะอย่างยิ่งเมื่อความแตกต่างของประสิทธิภาพระหว่างตัวแปรมีน้อย นอกจากนี้ คุณยังอาจ เห็นว่าเครื่องคำนวณขนาดตัวอย่างออนไลน์มีประโยชน์ในการค้นหา ขนาดตัวอย่างที่แนะนำตามลักษณะของการทดสอบ

แก้ไขการทดสอบ

คุณสามารถแก้ไขพารามิเตอร์ที่เลือกของการทดสอบที่ทำงานอยู่ได้ ซึ่งรวมถึง

  • ชื่อการทดสอบ
  • คำอธิบาย
  • เงื่อนไขการกำหนดเป้าหมาย
  • ค่าตัวแปร

วิธีแก้ไขการทดสอบ

  1. เปิดหน้าผลลัพธ์ของการทดสอบที่ต้องการแก้ไข
  2. จากเมนูเพิ่มเติม ให้เลือก แก้ไขการทดสอบที่กำลังทำงาน
  3. ทำการเปลี่ยนแปลง แล้วคลิกเผยแพร่

โปรดทราบว่าการเปลี่ยนลักษณะการทำงานของแอปในระหว่างการทดสอบที่กำลังทำงานอยู่อาจส่งผลต่อผลลัพธ์ได้

ตรรกะการกำหนดตัวแปรของการกำหนดค่าระยะไกล

ระบบจะกําหนดผู้ใช้ที่ตรงกับเงื่อนไขการกําหนดเป้าหมายการทดสอบทั้งหมด (รวมถึงเงื่อนไขเปอร์เซ็นต์การแสดงโฆษณา) ให้กับตัวแปรการทดสอบตามน้ำหนักตัวแปรและแฮชของรหัสการทดสอบและรหัสการติดตั้งFirebaseของผู้ใช้

Google Analyticsกลุ่มเป้าหมาย อาจมีเวลาในการตอบสนองและจะไม่พร้อมใช้งานทันทีเมื่อผู้ใช้มีคุณสมบัติตรงตามเกณฑ์ของกลุ่มเป้าหมายในครั้งแรก

  • เมื่อคุณสร้างกลุ่มเป้าหมายใหม่ ระบบอาจใช้เวลา 24-48 ชั่วโมงในการรวบรวม ผู้ใช้ใหม่
  • โดยปกติแล้ว ระบบจะลงทะเบียนผู้ใช้ใหม่ในกลุ่มเป้าหมายที่มีสิทธิ์ภายใน 24-48 ชั่วโมงหลังจากที่ผู้ใช้มีสิทธิ์

สําหรับการกําหนดเป้าหมายที่ขึ้นอยู่กับเวลา ให้พิจารณาใช้Google Analyticsพร็อพเพอร์ตี้ผู้ใช้ หรือตัวเลือกการกําหนดเป้าหมายในตัว เช่น ประเทศหรือภูมิภาค ภาษา และเวอร์ชันแอป

เมื่อผู้ใช้เข้าร่วมการทดสอบแล้ว ระบบจะกําหนดตัวแปรการทดสอบให้ผู้ใช้รายนั้นอย่างถาวร และผู้ใช้จะได้รับค่าพารามิเตอร์จากการทดสอบตราบใดที่การทดสอบยังคงใช้งานอยู่ แม้ว่าพร็อพเพอร์ตี้ผู้ใช้จะเปลี่ยนแปลงและผู้ใช้ไม่เป็นไปตามเกณฑ์การกำหนดเป้าหมายการทดสอบอีกต่อไปก็ตาม

เหตุการณ์การเปิดใช้งาน

เหตุการณ์การเปิดใช้งานการทดสอบจะจํากัดการวัดผลการทดสอบไว้เฉพาะผู้ใช้แอปที่ทริกเกอร์เหตุการณ์การเปิดใช้งาน เหตุการณ์การเปิดใช้งานการทดสอบไม่มีผลต่อพารามิเตอร์การทดสอบที่แอปดึงข้อมูลมา ผู้ใช้ทุกคนที่ตรงตามเกณฑ์การกำหนดเป้าหมายการทดสอบจะได้รับพารามิเตอร์การทดสอบ ดังนั้น คุณจึงควรเลือกเหตุการณ์การเปิดใช้งานที่เกิดขึ้นหลังจาก ดึงและเปิดใช้งานพารามิเตอร์การทดสอบแล้ว แต่ก่อนที่จะ ใช้พารามิเตอร์การทดสอบเพื่อแก้ไขลักษณะการทํางานของแอป

น้ำหนักของตัวแปร

ในระหว่างการสร้างการทดสอบ คุณสามารถเปลี่ยนน้ำหนักของตัวแปรเริ่มต้น เพื่อกำหนดให้ผู้ใช้ในการทดสอบจำนวนมากขึ้นอยู่ในตัวแปร

แปลผลการทดสอบ

Firebase A/B Testing ใช้การอนุมานแบบความถี่เพื่อช่วยให้คุณเข้าใจ ความเป็นไปได้ที่ผลการทดสอบอาจเกิดขึ้นเนื่องจากความบังเอิญ แบบสุ่มเพียงอย่างเดียว ความน่าจะเป็นนี้แสดงด้วยค่าความน่าจะเป็นหรือค่า P-Value ค่า P-Value คือความน่าจะเป็นที่ความแตกต่างของประสิทธิภาพนี้ หรือมากกว่านั้นระหว่าง 2 เวอร์ชันอาจเกิดขึ้นเนื่องจากโอกาสแบบสุ่ม หากไม่มีผลลัพธ์ใดๆ จริงๆ โดยวัดจาก ค่าระหว่าง 0 ถึง 1 A/B Testing ใช้ระดับนัยสำคัญที่ 0.05 เพื่อให้

  • ค่า P-Value น้อยกว่า 0.05 แสดงว่าหากความแตกต่างที่แท้จริงเป็น 0 มีโอกาสน้อยกว่า 5% ที่ความแตกต่างที่สังเกตได้ซึ่งมีค่าสุดขั้วนี้จะ เกิดขึ้นแบบสุ่ม เนื่องจาก 0.05 คือเกณฑ์ ค่า P-Value ที่น้อยกว่า 0.05 แสดงให้เห็นถึงความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างตัวแปร
  • ค่า p ที่มากกว่า 0.05 แสดงว่าความแตกต่างระหว่างตัวแปร ไม่มีนัยสำคัญทางสถิติ

ระบบจะรีเฟรชข้อมูลการทดสอบวันละครั้ง และเวลาอัปเดตล่าสุด จะปรากฏที่ด้านบนของหน้าผลการทดสอบ

กราฟผลการทดสอบจะแสดงค่าเฉลี่ยสะสมของเมตริกที่เลือก เช่น หากคุณติดตามรายได้จากโฆษณาต่อผู้ใช้เป็นเมตริก ระบบจะแสดงรายได้ที่สังเกตได้ต่อผู้ใช้ และหากคุณติดตามผู้ใช้ที่ไม่มีข้อขัดข้อง ระบบจะติดตามเปอร์เซ็นต์ของผู้ใช้ที่ไม่พบข้อขัดข้อง ข้อมูลนี้เป็นข้อมูลสะสมตั้งแต่เริ่มการทดสอบ

ผลลัพธ์จะแบ่งออกเป็นข้อมูลที่สังเกตได้และข้อมูลการอนุมาน ข้อมูลที่สังเกตได้จะคํานวณจากข้อมูล Google Analytics โดยตรง และข้อมูลการอนุมาน จะให้ค่า p และช่วงความเชื่อมั่นเพื่อช่วยคุณประเมิน ความสําคัญทางสถิติของข้อมูลที่สังเกตได้

ระบบจะแสดงสถิติต่อไปนี้สำหรับเมตริกแต่ละรายการ

ข้อมูลที่สังเกต

  • มูลค่ารวมของเมตริกที่ติดตาม (จํานวนผู้ใช้ที่คงไว้ จํานวนผู้ใช้ที่แอปขัดข้อง รายได้รวม)
  • อัตราเฉพาะเมตริก (อัตราการคงผู้ใช้ไว้ อัตรา Conversion รายได้ต่อผู้ใช้)
  • เปอร์เซ็นต์ส่วนต่าง (Lift) ระหว่างตัวแปรกับการวัดผลพื้นฐาน

ข้อมูลการอนุมาน

  • CI 95% (ความแตกต่างของค่าเฉลี่ย) แสดงช่วง ที่มีค่า "จริง" ของเมตริกที่ติดตามโดยมีความเชื่อมั่น 95% ตัวอย่างเช่น หากผลการทดสอบทำให้เกิด CI 95% สำหรับรายได้รวมโดยประมาณระหว่าง $5 ถึง $10 ก็มีโอกาส 95% ที่ความแตกต่างที่แท้จริงของค่าเฉลี่ยจะอยู่ระหว่าง $5 ถึง $10 หากช่วง CI มี 0 แสดงว่าไม่พบความแตกต่างที่มีนัยสำคัญทางสถิติ ระหว่างตัวแปรกับโฆษณาฐาน

    ค่าช่วงความเชื่อมั่นจะปรากฏในรูปแบบที่ตรงกับเมตริกที่ติดตาม เช่น เวลา (ใน HH:MM:SS) สำหรับการคงผู้ใช้, USD สำหรับรายได้จากโฆษณาต่อผู้ใช้ และเปอร์เซ็นต์สำหรับอัตรา Conversion

  • ค่า P ซึ่งแสดงถึงความน่าจะเป็นของ การสังเกตข้อมูลที่มากเท่ากับผลลัพธ์ที่ได้ในการทดสอบ โดยพิจารณาจาก ว่าไม่มีความแตกต่างที่แท้จริงระหว่างกลุ่มทดสอบกับกลุ่มพื้นฐาน ยิ่งค่า P-Value ต่ำ ความเชื่อมั่นที่ประสิทธิภาพที่สังเกตได้ยังคงเป็นจริงก็จะยิ่งสูงขึ้นหากเราทำการทดสอบซ้ำ ค่า 0.05 หรือต่ำกว่าแสดงถึงความแตกต่างที่มีนัยสำคัญและโอกาสต่ำที่ผลลัพธ์จะเกิดจากความบังเอิญ ค่า P อิงตามการทดสอบแบบหางเดียว ซึ่งค่าตัวแปรมากกว่าค่าพื้นฐาน Firebase ใช้การทดสอบ t แบบความแปรปรวนไม่เท่ากันสำหรับตัวแปรต่อเนื่อง (ค่าตัวเลข เช่น รายได้) และการทดสอบ z ของสัดส่วนสำหรับข้อมูล Conversion (ค่าไบนารี เช่น การใช้งานต่อเนื่องของผู้ใช้ ผู้ใช้ที่ไม่พบข้อขัดข้อง ผู้ใช้ที่ทริกเกอร์เหตุการณ์ Google Analytics)

ผลการทดสอบจะให้ข้อมูลเชิงลึกที่สําคัญสําหรับตัวแปรการทดสอบแต่ละรายการ ซึ่งรวมถึง

  • เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าพื้นฐานมากน้อยเพียงใด ตามที่วัดโดยตรง (นั่นคือ ข้อมูลที่สังเกตได้จริง)
  • ความเป็นไปได้ที่ความแตกต่างที่พบระหว่างตัวแปรและ ค่าพื้นฐานอาจเกิดขึ้นเนื่องจากความบังเอิญ (ค่า P-Value)
  • ช่วงที่มีแนวโน้มที่จะมีผลต่างด้านประสิทธิภาพ "ที่แท้จริง" ระหว่างตัวแปรกับโฆษณาฐานสำหรับเมตริกการทดสอบแต่ละรายการ ซึ่งเป็นวิธีทำความเข้าใจสถานการณ์ประสิทธิภาพ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด"

ตีความผลลัพธ์ของการทดสอบที่ขับเคลื่อนโดย Google Optimize

ผลลัพธ์ Firebase A/B Testing ของการทดสอบที่เริ่มก่อนวันที่ 23 ตุลาคม 2023 ขับเคลื่อนโดย Google Optimize Google Optimize ใช้การอนุมานแบบ Bayesian เพื่อ สร้างสถิติเชิงลึกจากข้อมูลการทดสอบ

ผลลัพธ์จะแบ่งออกเป็น "ข้อมูลที่สังเกตได้" และ "ข้อมูลโดยประมาณ" ข้อมูลสังเกตการณ์คำนวณมาจากข้อมูลวิเคราะห์โดยตรง และข้อมูลจำลองได้มาจากการใช้แบบจำลองเบย์เซียนกับข้อมูลสังเกตการณ์

ระบบจะแสดงสถิติต่อไปนี้สำหรับเมตริกแต่ละรายการ

ค่าที่สังเกตได้

  • มูลค่ารวม (ผลรวมของเมตริกสําหรับผู้ใช้ทั้งหมดในตัวแปร)
  • มูลค่าเฉลี่ย (มูลค่าเฉลี่ยของเมตริกสําหรับผู้ใช้ในตัวแปร)
  • % ส่วนต่างจากเกณฑ์พื้นฐาน

ข้อมูลโดยประมาณ

  • ความน่าจะเป็นที่จะสูงกว่าเกณฑ์พื้นฐาน: โอกาสที่เมตริกจะสูงกว่าสำหรับตัวแปรนี้เมื่อเทียบกับเกณฑ์พื้นฐาน
  • เปอร์เซ็นต์ส่วนต่างจากเกณฑ์พื้นฐาน: อิงตามค่าประมาณโมเดลค่ามัธยฐานของเมตริกสำหรับกลุ่มทดสอบและเกณฑ์พื้นฐาน
  • ช่วงเมตริก: ช่วงที่มีแนวโน้มที่จะพบค่าของเมตริกมากที่สุด โดยมีความแน่นอน 50% และ 95%

โดยรวมแล้ว ผลการทดสอบทำให้เราได้รับข้อมูลเชิงลึกที่สำคัญ 3 ประการสำหรับแต่ละ ตัวแปรในการทดสอบ

  1. เมตริกการทดสอบแต่ละรายการสูงหรือต่ำกว่าเส้นฐานมากน้อยเพียงใดเมื่อเทียบกับเส้นฐาน ตามที่วัดโดยตรง (เช่น ข้อมูลที่สังเกตได้จริง)
  2. มีแนวโน้มที่เมตริกการทดสอบแต่ละรายการจะสูงกว่าเกณฑ์พื้นฐาน / ดีที่สุดโดยรวมมากน้อยเพียงใด โดยอิงตามการอนุมานแบบเบย์ (ความน่าจะเป็นที่จะดีกว่า / ดีที่สุดตามลำดับ)
  3. ช่วงที่เป็นไปได้สำหรับเมตริกการทดสอบแต่ละรายการตามการอนุมานแบบเบย์ - สถานการณ์ "กรณีที่ดีที่สุด" และ "กรณีที่แย่ที่สุด" (ช่วงที่น่าเชื่อถือ)

การกำหนดผู้นำ

สําหรับการทดสอบที่ใช้ การอนุมานแบบความถี่ Firebase จะประกาศว่าตัวแปรทำได้เหนือกว่า หากพบว่าประสิทธิภาพของตัวแปรและโฆษณาฐานแตกต่างอย่างมีนัยสำคัญทางสถิติ เมื่อพิจารณา เมตริกเป้าหมาย หากมีตัวแปรหลายรายการทำได้ตามเกณฑ์ ตัวแปรที่ได้ค่า P-Value ต่ำสุดจะได้รับเลือก

สำหรับการทดสอบที่ใช้ Google Optimize Firebase จะประกาศว่าตัวแปรเป็น "ผู้นำที่ชัดเจน" หากมีโอกาสมากกว่า 95% ที่จะดีกว่าตัวแปรพื้นฐานในเมตริกหลัก หาก หลายๆ ตัวเลือกตรงตามเกณฑ์ "ผู้นำที่ชัดเจน" ระบบจะติดป้ายกำกับตัวเลือกที่มีประสิทธิภาพดีที่สุด โดยรวมเป็น "ผู้นำที่ชัดเจน" เท่านั้น

เนื่องจากการระบุโฆษณาที่ทำได้เหนือกว่าจะอิงตามเป้าหมายหลักอย่างเดียว คุณควรพิจารณาปัจจัยทั้งหมดที่เกี่ยวข้องและดูผลเมตริกรองก่อนตัดสินใจว่าจะเปิดตัวตัวแปรที่ทำได้เหนือกว่าหรือไม่ คุณอาจต้องพิจารณาถึงข้อดีที่คาดหวังจากการเปลี่ยนแปลง ความเสี่ยงด้านลบ (เช่น ช่วงความเชื่อมั่นระดับล่างสุดสำหรับการปรับปรุง) และผลกระทบต่อ เมตริกอื่นๆ นอกเหนือจากเป้าหมายหลัก

ตัวอย่างเช่น หากเมตริกหลักคือผู้ใช้ที่ไม่พบข้อขัดข้อง และตัวแปร A มีประสิทธิภาพสูงกว่าค่าพื้นฐานอย่างเห็นได้ชัด แต่เมตริกการรักษาผู้ใช้ของตัวแปร A ต่ำกว่าการรักษาผู้ใช้พื้นฐาน คุณอาจต้องตรวจสอบเพิ่มเติมก่อนที่จะเปิดตัวตัวแปร A ในวงกว้าง

คุณสามารถ เปิดตัว ตัวแปรใดก็ได้ ไม่ใช่แค่ตัวแปรที่ทำได้เหนือกว่า โดยอิงตาม การประเมินประสิทธิภาพโดยรวมในเมตริกทั้งหลักและรอง

ระยะเวลาการทดสอบ

Firebase ขอแนะนำให้ทำการทดสอบต่อไปจนกว่าจะตรงตามเงื่อนไขต่อไปนี้

  1. การทดสอบได้รวบรวมข้อมูลเพียงพอที่จะให้ผลลัพธ์ที่เป็นประโยชน์ ระบบจะอัปเดตการทดสอบและข้อมูลผลลัพธ์วันละครั้ง คุณอาจต้องปรึกษา เครื่องคำนวณขนาดตัวอย่างออนไลน์เพื่อประเมินขนาดตัวอย่างที่แนะนำของการทดสอบ
  2. การทดสอบทำงานนานพอที่จะรับประกันตัวอย่างผู้ใช้ที่เป็นตัวแทน และวัดประสิทธิภาพในระยะยาว 2 สัปดาห์คือระยะเวลาขั้นต่ำที่แนะนํา สําหรับการทดสอบการกำหนดค่าระยะไกลทั่วไป

ระบบจะประมวลผลข้อมูลการทดสอบนานสูงสุด 90 วันหลังจาก เริ่มการทดสอบ หลังจาก 90 วัน ระบบจะหยุดการทดสอบโดยอัตโนมัติ ระบบจะไม่แสดงผลการทดสอบในFirebaseคอนโซลอีกต่อไป และการทดสอบจะหยุดส่งค่าพารามิเตอร์เฉพาะการทดสอบ ณ จุดนี้ ไคลเอ็นต์จะเริ่มดึงค่าพารามิเตอร์ตามเงื่อนไขที่ตั้งไว้ ในเทมเพลต Remote Config ระบบจะเก็บข้อมูลการทดสอบย้อนหลังไว้จนกว่า คุณจะลบการทดสอบ

สคีมา BigQuery

นอกเหนือจากการดูA/B Testingข้อมูลการทดสอบในคอนโซล Firebaseแล้ว คุณยังตรวจสอบและวิเคราะห์ข้อมูลการทดสอบใน BigQueryได้ด้วย แม้ว่า A/B Testing จะไม่มีตาราง BigQuery แยกต่างหาก แต่ระบบจะจัดเก็บการเป็นสมาชิกการทดสอบและตัวแปรไว้ในเหตุการณ์ Google Analytics ทุกรายการภายในตารางเหตุการณ์ Analytics

พร็อพเพอร์ตี้ผู้ใช้ที่มีข้อมูลการทดสอบจะมีรูปแบบ userProperty.key like "firebase_exp_%" หรือ userProperty.key = "firebase_exp_01" โดยที่ 01 คือรหัสการทดสอบ และ userProperty.value.string_value มีดัชนี (อิงตาม 0) ของ ตัวแปรการทดสอบ

คุณใช้พร็อพเพอร์ตี้ผู้ใช้ในการทดสอบเหล่านี้เพื่อดึงข้อมูลการทดสอบได้ ซึ่งจะช่วยให้คุณสามารถแบ่งผลการทดสอบได้หลายวิธีและตรวจสอบผลลัพธ์ของ A/B Testing ได้อย่างอิสระ

หากต้องการเริ่มต้นใช้งาน ให้ทำตามขั้นตอนต่อไปนี้ตามที่อธิบายไว้ในคู่มือนี้

  1. เปิดใช้การส่งออก BigQuery สำหรับ Google Analytics ในคอนโซล Firebase
  2. เข้าถึงข้อมูล A/B Testing โดยใช้ BigQuery
  3. สำรวจตัวอย่างการค้นหา

เปิดใช้BigQueryการส่งออกสำหรับ Google Analytics ในคอนโซล Firebase

หากใช้แพ็กเกจ Spark คุณจะใช้BigQueryแซนด์บ็อกซ์เพื่อเข้าถึง BigQueryได้โดยไม่มีค่าใช้จ่าย โดยขึ้นอยู่กับขีดจำกัดของแซนด์บ็อกซ์ ดูข้อมูลเพิ่มเติมได้ที่การกำหนดราคาและBigQueryแซนด์บ็อกซ์

ก่อนอื่น ให้ตรวจสอบว่าคุณส่งออกข้อมูล Analytics ไปยัง BigQuery ดังนี้

  1. เปิดแท็บการผสานรวม ซึ่งคุณเข้าถึงได้โดยใช้ > การตั้งค่าโปรเจ็กต์ในFirebase คอนโซล
  2. หากคุณใช้ BigQuery กับบริการอื่นๆ ของ Firebase อยู่แล้ว ให้คลิกจัดการ หากไม่มี ให้คลิกลิงก์
  3. อ่านเกี่ยวกับการลิงก์ Firebase กับ BigQuery แล้วคลิกถัดไป
  4. ในส่วนกำหนดค่าการผสานรวม ให้เปิดใช้ปุ่มสลับ Google Analytics
  5. เลือกภูมิภาคและเลือกการตั้งค่าการส่งออก

  6. คลิกลิงก์ไปยัง BigQuery

ตารางอาจพร้อมใช้งานภายใน 1 วัน ทั้งนี้ขึ้นอยู่กับวิธีที่คุณเลือกส่งออกข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQueryได้ที่ ส่งออกข้อมูลโปรเจ็กต์ไปยัง BigQuery

เข้าถึงข้อมูล A/B Testing ใน BigQuery

ก่อนที่จะค้นหาข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจง คุณจะต้องได้รับข้อมูลต่อไปนี้บางส่วนหรือทั้งหมดเพื่อใช้ในการค้นหา

  • รหัสการทดสอบ: คุณดูรหัสนี้ได้จาก URL ของหน้าภาพรวมการทดสอบ เช่น หาก URL มีลักษณะดังนี้ https://console.firebase.google.com/project/my_firebase_project/config/experiment/results/25, รหัสการทดสอบคือ 25
  • รหัสพร็อพเพอร์ตี้ Google Analytics: นี่คือรหัสพร็อพเพอร์ตี้ 9 หลัก Google Analytics คุณดูข้อมูลนี้ได้ใน Google Analytics และจะปรากฏใน BigQuery ด้วยเมื่อคุณขยาย ชื่อโปรเจ็กต์เพื่อแสดงชื่อตารางเหตุการณ์ Google Analytics (project_name.analytics_000000000.events)
  • วันที่ทดสอบ: เพื่อสร้างคําค้นหาที่รวดเร็วและมีประสิทธิภาพมากขึ้น แนวทางปฏิบัติที่ดีคือการจํากัดคําค้นหาไว้ที่พาร์ติชันตารางเหตุการณ์Google Analyticsรายวัน ที่มีข้อมูลการทดสอบของคุณ ซึ่งเป็นตารางที่ระบุด้วยคําต่อท้าย YYYYMMDD ดังนั้น หากการทดสอบของคุณทํางานตั้งแต่วันที่ 2 กุมภาพันธ์ 2024 ถึงวันที่ 2 พฤษภาคม 2024 คุณจะต้องระบุ _TABLE_SUFFIX between '20240202' AND '20240502' ดูตัวอย่างได้ที่ เลือกค่าของการทดสอบที่เฉพาะเจาะจง
  • ชื่อเหตุการณ์: โดยปกติแล้วชื่อเหล่านี้จะสอดคล้องกับ เมตริกเป้าหมาย ที่คุณกําหนดค่าในการทดสอบ เช่น in_app_purchase events, ad_impression หรือ user_retention events

หลังจากรวบรวมข้อมูลที่จำเป็นในการสร้างคำค้นหาแล้ว ให้ทำดังนี้

  1. เปิด BigQuery ในคอนโซล Google Cloud
  2. เลือกโปรเจ็กต์ แล้วเลือกสร้างการค้นหา SQL
  3. เพิ่มคำค้นหา ดูตัวอย่างการค้นหาที่จะเรียกใช้ได้ที่สำรวจตัวอย่างการค้นหา
  4. คลิกเรียกใช้

ค้นหาข้อมูลการทดสอบการค้นหาโดยใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติของคอนโซล Firebase

หากใช้แพ็กเกจ Blaze หน้าภาพรวมการทดสอบจะมีตัวอย่างคําค้นหาที่แสดงชื่อการทดสอบ รูปแบบ ชื่อเหตุการณ์ และจํานวนเหตุการณ์สําหรับการทดสอบที่คุณกําลังดู

วิธีรับและเรียกใช้การค้นหาที่สร้างขึ้นโดยอัตโนมัติ

  1. จากคอนโซล Firebase ให้เปิด A/B Testing แล้วเลือกการทดสอบ A/B Testing ที่ต้องการค้นหาเพื่อเปิด ภาพรวมการทดสอบ
  2. จากเมนูตัวเลือก ในส่วนการผสานรวม BigQuery ให้เลือก ค้นหาข้อมูลการทดสอบ ซึ่งจะเปิดโปรเจ็กต์ในBigQuery ภายในคอนโซล Google Cloud คอนโซลและแสดงการค้นหาพื้นฐานที่คุณใช้ เพื่อค้นหาข้อมูลการทดสอบได้

ตัวอย่างต่อไปนี้แสดงคําค้นหาที่สร้างขึ้นสําหรับการทดสอบที่มีตัวแปร 3 รายการ (รวมถึงเกณฑ์พื้นฐาน) ชื่อ "การทดสอบต้อนรับฤดูหนาว" โดยจะแสดงชื่อการทดสอบที่ใช้งานอยู่ ชื่อตัวแปร เหตุการณ์ที่ไม่ซ้ำ และ จำนวนเหตุการณ์สำหรับแต่ละเหตุการณ์ โปรดทราบว่าเครื่องมือสร้างคําค้นหาไม่ได้ระบุ ชื่อโปรเจ็กต์ในชื่อตาราง เนื่องจากจะเปิดภายในโปรเจ็กต์โดยตรง

  /*
    This query is auto-generated by Firebase A/B Testing for your
    experiment "Winter welcome experiment".
    It demonstrates how you can get event counts for all Analytics
    events logged by each variant of this experiment's population.
  */
  SELECT
    'Winter welcome experiment' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'Welcome message (1)'
      WHEN '2' THEN 'Welcome message (2)'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_000000000.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN '20240202' AND '20240502')
    AND userProperty.key = 'firebase_exp_25'
  GROUP BY
    experimentVariant, eventName

ดูตัวอย่างการค้นหาเพิ่มเติมได้ที่ สำรวจตัวอย่างการค้นหา

สำรวจตัวอย่างการค้นหา

ส่วนต่อไปนี้จะแสดงตัวอย่างการค้นหาที่คุณใช้เพื่อดึงข้อมูลการทดสอบจากตารางเหตุการณ์ได้A/B TestingGoogle Analytics

ดึงค่าเบี่ยงเบนมาตรฐานของการซื้อและการทดสอบจากการทดสอบทั้งหมด

คุณสามารถใช้ข้อมูลผลการทดสอบเพื่อยืนยันFirebase A/B Testingผลลัพธ์ได้ด้วยตนเอง BigQueryคำสั่ง SQL ต่อไปนี้จะดึงข้อมูลตัวแปร การทดสอบ จำนวนผู้ใช้ที่ไม่ซ้ำในแต่ละตัวแปร และผลรวมของรายได้ทั้งหมด จากเหตุการณ์ in_app_purchase และ ecommerce_purchase รวมถึงค่าเบี่ยงเบนมาตรฐาน สำหรับการทดสอบทั้งหมดภายในช่วงเวลาที่ระบุเป็นวันที่_TABLE_SUFFIXเริ่มต้น และวันที่สิ้นสุด คุณใช้ข้อมูลที่ได้จากคําค้นหานี้กับเครื่องมือสร้างนัยสําคัญทางสถิติสําหรับการทดสอบ t แบบหางเดียวเพื่อยืนยันว่าผลลัพธ์ที่ Firebase ให้ตรงกับการวิเคราะห์ของคุณเอง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่ A/B Testing คำนวณการอนุมานได้ที่ แปลผลการทดสอบ

  /*
    This query returns all experiment variants, number of unique users,
    the average USD spent per user, and the standard deviation for all
    experiments within the date range specified for _TABLE_SUFFIX.
  */
  SELECT
    experimentNumber,
    experimentVariant,
    COUNT(*) AS unique_users,
    AVG(usd_value) AS usd_value_per_user,
    STDDEV(usd_value) AS std_dev
  FROM
    (
      SELECT
        userProperty.key AS experimentNumber,
        userProperty.value.string_value AS experimentVariant,
        user_pseudo_id,
        SUM(
          CASE
            WHEN event_name IN ('in_app_purchase', 'ecommerce_purchase')
              THEN event_value_in_usd
            ELSE 0
            END) AS usd_value
      FROM `PROJECT_NAME.analytics_ANALYTICS_ID.events_*`
      CROSS JOIN UNNEST(user_properties) AS userProperty
      WHERE
        userProperty.key LIKE 'firebase_exp_%'
        AND event_name IN ('in_app_purchase', 'ecommerce_purchase')
        AND (_TABLE_SUFFIX BETWEEN 'YYYYMMDD' AND 'YYYMMDD')
      GROUP BY 1, 2, 3
    )
  GROUP BY 1, 2
  ORDER BY 1, 2;

เลือกค่าของการทดสอบที่เฉพาะเจาะจง

ตัวอย่างการค้นหาต่อไปนี้แสดงวิธีรับข้อมูลสำหรับการทดสอบที่เฉพาะเจาะจงใน BigQuery ตัวอย่างคําค้นหานี้จะแสดงชื่อการทดสอบ ชื่อตัวแปร (รวมถึงพื้นฐาน) ชื่อเหตุการณ์ และจํานวนเหตุการณ์

  SELECT
    'EXPERIMENT_NAME' AS experimentName,
    CASE userProperty.value.string_value
      WHEN '0' THEN 'Baseline'
      WHEN '1' THEN 'VARIANT_1_NAME'
      WHEN '2' THEN 'VARIANT_2_NAME'
      END AS experimentVariant,
    event_name AS eventName,
    COUNT(*) AS count
  FROM
    `analytics_ANALYTICS_PROPERTY.events_*`,
    UNNEST(user_properties) AS userProperty
  WHERE
    (_TABLE_SUFFIX BETWEEN 'YYYMMDD' AND 'YYYMMDD')
    AND userProperty.key = 'firebase_exp_EXPERIMENT_NUMBER'
  GROUP BY
    experimentVariant, eventName

จำกัดสูงสุด

A/B Testing มีการทดสอบทั้งหมดได้สูงสุด 300 รายการ, การทดสอบที่ทำงานอยู่ 24 รายการ และการทดสอบฉบับร่าง 24 รายการ โดยเราจะแชร์ขีดจำกัดเหล่านี้พร้อมกับการเปิดตัวRemote Config เช่น หากคุณมีการเปิดตัว 2 รายการที่กำลังดำเนินการอยู่ และการทดสอบ 3 รายการที่กำลังดำเนินการอยู่ คุณจะมีการเปิดตัวหรือการทดสอบเพิ่มเติมได้สูงสุด 19 รายการ

  • หากมีการทดสอบทั้งหมดถึง 300 รายการหรือมีการทดสอบฉบับร่างถึง 24 รายการ คุณต้องลบการทดสอบที่มีอยู่ก่อนจึงจะสร้างการทดสอบใหม่ได้

  • หากมีการทดสอบที่กำลังดำเนินการและการเปิดตัวถึงขีดจำกัด 24 รายการ คุณต้องหยุดการทดสอบที่กำลังดำเนินการหรือการเปิดตัวก่อนจึงจะเริ่มรายการใหม่ได้

การทดสอบมีตัวแปรได้สูงสุด 8 รายการ (รวมถึงเกณฑ์พื้นฐาน) และพารามิเตอร์สูงสุด 25 รายการสำหรับแต่ละตัวแปร การทดสอบมีขนาดได้สูงสุดประมาณ 200 KiB ซึ่งรวมถึงชื่อตัวแปร พารามิเตอร์ตัวแปร และข้อมูลเมตาการกำหนดค่าอื่นๆ